思路:因为豆瓣的 subject_id 是非连续的而且数量很大,穷举的话看上去不科学,但是豆瓣推荐系统做得还不错,适合用 CrawlSpider 来爬 流程: subject spider 爬取对应 subject_id -> meta spider 获取元数据和下载封面图片 -> comment spider 获取评论信息
从最初的 urllib + re 到 Requests + BeautifulSoup 再到 Scrapy ,豆瓣依然是最佳实验场地,代码是很久前写的我改了一下运行良好,人真的很奇怪,以前我总想知道别人服务器上面跑的代码到底长什么样,自己写了呢又老是让它吃灰,不如分享出来,希望能帮助一下初学或者想学 Scrapy 的同学了解一下数据匹配,校验,图片管道的使用