爬虫实践基于 webmagic ,提供一个例子用于层次化主题帖子和二级帖子及内容。
webmagic 介绍
https://www.oschina.net/p/webmagic5 分钟实现爬 oschina 帖子
https://git.oschina.net/ihuotui/webmagic-sample目标
1 遍历主题列表
2 读取主题详情页,获取目标文件或者图片或者内容
3 (可选)读取主题详情页下一页,获取目标文件或者图片
4 (可选)下载目标文件
说明,使用 redis 作为进度保存。
基于以上目标
1 写了一个抽象类 AbstractPageAndSubPageProcessor 作为遍历抽象,子类集成后,实现一些逻辑就可以运行。
2 使用 DownloadUrlFileThread 来下载具体文件。
3 测试方法运行 test 目录的 AbstractPageTest
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/334183
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.