博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hertrix
阅读量:4645 次
发布时间:2019-06-09

本文共 646 字,大约阅读时间需要 2 分钟。

前段时间做爬虫的项目,最开始用的是Hertrix框架,爬取页面时遇到些问题不知道怎么解决,折腾了一段时间,虽然失败了,但是还是想记录一下

后来选了另外一个轻量级框架crawler4j
首先贴两个网址
https://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/
http://guoyunsky.iteye.com/
第一篇是Heritrix的搭建,写的非常详细
第二篇是一位大神的博客,里面非常详细介绍了Heritrix
感谢两位作者
Heritrix主要有两个版本:1.14.4,3.1,两个版本的区别还是很大的
包括核心配置文件,web页面
原理:Heritrix有很多处理链条,每个处理链都有其作用,如抓取robot 协议,解析DNS,获取新url,把数据写入磁盘,新url存入待处理的队列中,从种子页面开始经过这些链条后获取数据
在核心配置文件中可以配置这些链条
web页面:显示了抓取的各种实时参数,包括当前活跃线程,待处理url,抓取速度,..
Heritrix会把页面的数据都下载下来:包括html,js,css,jpg..
主要项目中遇到的问题如下:
1.爬取了几个小时,但是本地的数据却很少,处理的页面也很少
2.爬取不到半小时,活跃线程就为0,就是说爬虫基本停滞了
这两个问题没能解决,最后只好放弃了...

转载于:https://www.cnblogs.com/jaro/p/8744831.html

你可能感兴趣的文章
单例模式(Singleton Pattern)
查看>>
由数字与字母组成的验证码的实现
查看>>
ResultSet自动关闭问题
查看>>
mvc 部分视图
查看>>
BZOJ3261: 最大异或和
查看>>
全端开发必备!10个最好的 Node.js MVC 框架
查看>>
Fabric远程自动化使用说明
查看>>
linux php命令安装
查看>>
热身赛应该做什么?
查看>>
动手实现读写锁
查看>>
HNOI2010 合唱队
查看>>
或、异或
查看>>
智商的比拼——思维题思考指南
查看>>
MoveWindow() SetWindowPos()的区别与联系
查看>>
pthread_cond_signal惊群现象
查看>>
PHP CURL CURLOPT参数说明(curl_setopt)
查看>>
js深入(三)作用域链与闭包
查看>>
ubuntu sudo update与upgrade的作用及区别
查看>>
js创建javaMap
查看>>
LeetCode 350. Intersection of Two Arrays II (两个数组的相交之二)
查看>>