这段时间开发了一个动态可配置的爬虫网站 http://www.anycrawl.info,基于 scrapy,提供一些配置项,5 分钟就可生成一个通用爬虫,并可直接下载代码使用。
上 demo 和 截图
爬取豆瓣害羞组的帖子和图片: https://www.douban.com/group/haixiuzu/discussion
项目地址: http://www.anycrawl.info/project/15/
配置上图的选项后,即可下载爬虫源码使用
更多教程可参考这篇文章: https://zhuanlan.zhihu.com/p/31659456
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.