JAVA 爬虫 WebCollector 2.x 入门教程——基本概念

2015-12-25 10:29:43 +08:00
 briefcopy

JAVA 爬虫 WebCollector 2.x 入门教程——基本概念

摘要:
WebCollector 是一个无须配置、便于二次开发的 JAVA 爬虫框架(内核),它提供精简的的 API ,只需少量代码即可实现一个功能强大的爬虫。 WebCollector-Hadoop 是 WebCollector 的 Hadoop 版本,支持分布式爬取。

3808 次点击
所在节点    Java
10 条回复
ca1123
2015-12-25 12:30:03 +08:00
你写的?
briefcopy
2015-12-25 12:51:36 +08:00
@ca1123 是的
SparkMan
2015-12-25 13:07:25 +08:00
爬虫的关键(或者难点)是如何不被封 IP ,至于怎么抓取页面 httpclient 跟其他组件都差不多
lx19930805
2015-12-25 18:23:42 +08:00
@SparkMan 恩恩.然后呢?如何不被封 IP?
被封 IP 是因为多次大量的访问某个域名的网址吧,刚接触是这么理解的
geekboy
2015-12-25 20:05:16 +08:00
最近研究的是爬虫的增量更新问题~用的 webmagic 框架!
briefcopy
2015-12-25 23:42:33 +08:00
@SparkMan 爬虫的关键,是爬取允许爬取的数据,有效利用。比如搜索引擎还是要遵守 robots.txt 的。反爬就是网站不想让你爬,用随机高匿代理之类的解决反爬技术很成熟,但是有点抢劫的性质。
sefemp
2015-12-26 09:02:51 +08:00
@geekboy 是说诸如论坛数据之类的么
zonghua
2015-12-26 09:56:50 +08:00
@SparkMan 关键不是分析数据?
ooTwToo
2015-12-28 16:56:37 +08:00
头像有点像汪峰。
briefcopy
2015-12-28 18:52:39 +08:00
@ooTwToo 这明明是斯诺登。。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/246009

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX