`
wyuch
  • 浏览: 72807 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
  一个高性能的Web爬虫,必须有一个合适的网页容器。该容量最大的特点是要能够通过URL直接存取网页内容,并且要求有很高的性能,在一个千万级别的容器中存取一万次的时间应在1分钟左右(普通PC上)。   那么,有什么方式可以实现这个要求?   首先,我们想到文件系统,将URL编码(urlEncode,base64或hex都可以)后作为文件名直接存在文件系统的某个目录下,从而实现通过URL直接存取的目的。但这种方式管理上会有很大的问题(试过在一次删除十万个文件的朋友就知道会有多慢),会产生大量的小文件,在某些操作系统上会极大地降低文件系统的性能。   其次,放在数据库中,将URL单独存在一个字段里, ...
ZCMS的网页采集功能界面简洁,但功能强大,共由五部分组成: 一、一个大容量的页面文件容器。 1.1 该容器能保存上千万的HTML、图片、视频,但又不能产生过多的小文件。 1.2 该容器能通过URL快速存取文件(类似于HashMap) 1.3 该容 ...
本文原作者miguelcarrasco,来源于 http://www.realsoftwaredevelopment.com/what-makes-version-10-software-hard/。   我经常为开发软件的1.0版有多困难感到困扰。开发软件本身就是一件困难的事情,其原因不是在一篇博客里所能详尽的,但是为什么写V1.0如此之困难呢?我可以为你提供一个线索:这和开发商无关,而在于这是一个创新的过程。   事实上很多时候已经推出的V1.0都会有问题,这时你会觉得非常痛苦。相似的例子是新型号汽车推出后,经常会有大量召回的现象。有创新的地方,就有bug。你和你优秀的团队会花几个月、几年 ...
  2007年产品开始研发ZCMS(内容管理系统),方向早己确定,B/S结构,产品主要面向企业,与公司的具体情况有关,不必多谈。   接下是技术选型,首先排除了ASP和PHP。ASP和PHP虽然具有可以在虚拟主机上运行的巨大优势,但我 ...
  我想写博客目的无非有三:有感而发非诉衷肠不可、网上记录以作备忘、营销自我引发关注。我不讳言我的主要目的是营销自我,更不想假装客观,本系列研发手记将充满了主观认定,对各种技术毫不犹豫的扬弃。   技术之间永远都有战争,C对C++,C++对JAVA,.NET对J2EE,无数大佬身陷其中,争得不亦乐乎。而J2EE内部更是框架林立,概念四起,莫衷一是。我承认我对很多东西只是浅尝则止,我仅如实就我们公司研发产品过程中的经历作记录,不代表我们不用的技术就不是好技术,也不代表我们用的就是好技术,事实上如此多样的选择,百家争鸣式的竞逐,本身就代表着软件技术的发展存在着多种可能,定于一尊很有可能是一种停滞与 ...
Global site tag (gtag.js) - Google Analytics