思路:因为豆瓣的 subject_id 是非连续的而且数量很大,穷举的话看上去不科学,但是豆瓣推荐系统做得还不错,适合用 CrawlSpider 来爬 流程: subject spider 爬取对应 subject_id -> meta spider 获取元数据和下载封面图片 -> comment spider 获取评论信息
从最初的 urllib + re 到 Requests + BeautifulSoup 再到 Scrapy ,豆瓣依然是最佳实验场地,代码是很久前写的我改了一下运行良好,人真的很奇怪,以前我总想知道别人服务器上面跑的代码到底长什么样,自己写了呢又老是让它吃灰,不如分享出来,希望能帮助一下初学或者想学 Scrapy 的同学了解一下数据匹配,校验,图片管道的使用
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.