不得不感慨二次元才是第一生产力,废寝忘食的各种查资料,总算是写完,能够正常运行了。
整体功能比较简单(简陋)。就是抓取热榜列表页,遍历提取其中的 illust_id,并组织成对应的 pixiv 详情页,在详情页中抽取出大图的地址,通过 ImagePipeline 来下载图片。 PixivMetaPipline 实现了 Item 的本地存储。
最后生成的目录结构如下:
daily
├── 20150901
│   ├── full
│   │   ├──97b4941fjw1e44ghlhrwdj20tk15o7r7.jpg
│ │ ├──......
│   └── meta.json
weekly
├── 20150901
monthly
├── 20150901
.....
GITHUB 地址: pixiv_crawl
|  |      1lidonghao      2015-09-29 16:45:35 +08:00 up~ | 
|  |      2TheC      2015-09-29 16:57:45 +08:00  2 | 
|      4Starduster      2015-09-29 17:25:21 +08:00 唔其实我也是想在学 Python 的时候做 P 站爬虫的 233 感觉已经看过很多人做了 | 
|  |      5cdxem713 OP @Starduster 需求驱动(・ω・)ノ | 
|  |      7nikubenki      2015-09-29 18:47:54 +08:00 via iPhone 可不可以爬不在链接里的图呢 | 
|  |      10LancerComet      2015-09-29 19:44:20 +08:00 @TheC B 站基佬? | 
|  |      11Velacielad      2015-09-29 20:26:46 +08:00 hhhh 我一开始学爬虫第一个程序也是爬 P 站日榜 | 
|  |      12cdxem713 OP @Velacielad ^_^ | 
|  |      13nccer      2015-09-29 21:18:12 +08:00 我的第一个爬虫是爬我们学校的成绩表和个人信息 | 
|  |      14deadEgg      2015-09-30 08:36:37 +08:00 赞! | 
|  |      15TheC      2015-09-30 14:27:25 +08:00 |