不得不感慨二次元才是第一生产力,废寝忘食的各种查资料,总算是写完,能够正常运行了。
整体功能比较简单(简陋)。就是抓取热榜列表页,遍历提取其中的 illust_id,并组织成对应的 pixiv 详情页,在详情页中抽取出大图的地址,通过 ImagePipeline 来下载图片。 PixivMetaPipline 实现了 Item 的本地存储。
最后生成的目录结构如下:
daily
├── 20150901
│ ├── full
│ │ ├──97b4941fjw1e44ghlhrwdj20tk15o7r7.jpg
│ │ ├──......
│ └── meta.json
weekly
├── 20150901
monthly
├── 20150901
.....
GITHUB 地址: pixiv_crawl
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.