Hertrix-白红宇

Hertrix

阅读量：4645 次

发布时间：2019-06-09

本文共 646 字，大约阅读时间需要 2 分钟。

前段时间做爬虫的项目,最开始用的是Hertrix框架,爬取页面时遇到些问题不知道怎么解决,折腾了一段时间,虽然失败了,但是还是想记录一下

后来选了另外一个轻量级框架crawler4j

首先贴两个网址

https://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/

http://guoyunsky.iteye.com/

第一篇是Heritrix的搭建,写的非常详细

第二篇是一位大神的博客,里面非常详细介绍了Heritrix

感谢两位作者

Heritrix主要有两个版本:1.14.4,3.1,两个版本的区别还是很大的

包括核心配置文件,web页面

原理:Heritrix有很多处理链条,每个处理链都有其作用,如抓取robot 协议,解析DNS,获取新url,把数据写入磁盘,新url存入待处理的队列中,从种子页面开始经过这些链条后获取数据

在核心配置文件中可以配置这些链条

web页面:显示了抓取的各种实时参数,包括当前活跃线程,待处理url,抓取速度,..

Heritrix会把页面的数据都下载下来:包括html,js,css,jpg..

主要项目中遇到的问题如下:

1.爬取了几个小时,但是本地的数据却很少,处理的页面也很少

2.爬取不到半小时,活跃线程就为0,就是说爬虫基本停滞了

这两个问题没能解决,最后只好放弃了...

转载于:https://www.cnblogs.com/jaro/p/8744831.html

你可能感兴趣的文章