前段时间做爬虫的项目,最开始用的是Hertrix框架,爬取页面时遇到些问题不知道怎么解决,折腾了一段时间,虽然失败了,但是还是想记录一下
后来选了另外一个轻量级框架crawler4j首先贴两个网址https://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/http://guoyunsky.iteye.com/第一篇是Heritrix的搭建,写的非常详细第二篇是一位大神的博客,里面非常详细介绍了Heritrix感谢两位作者Heritrix主要有两个版本:1.14.4,3.1,两个版本的区别还是很大的包括核心配置文件,web页面原理:Heritrix有很多处理链条,每个处理链都有其作用,如抓取robot 协议,解析DNS,获取新url,把数据写入磁盘,新url存入待处理的队列中,从种子页面开始经过这些链条后获取数据在核心配置文件中可以配置这些链条web页面:显示了抓取的各种实时参数,包括当前活跃线程,待处理url,抓取速度,..Heritrix会把页面的数据都下载下来:包括html,js,css,jpg..主要项目中遇到的问题如下:1.爬取了几个小时,但是本地的数据却很少,处理的页面也很少2.爬取不到半小时,活跃线程就为0,就是说爬虫基本停滞了这两个问题没能解决,最后只好放弃了...