这两天在学 Python,写了一个 Pixiv 热榜的爬虫,不知道有没有人感兴趣

2015-09-29 16:03:44 +08:00
 cdxem713

不得不感慨二次元才是第一生产力,废寝忘食的各种查资料,总算是写完,能够正常运行了。

整体功能比较简单(简陋)。就是抓取热榜列表页,遍历提取其中的 illust_id,并组织成对应的 pixiv 详情页,在详情页中抽取出大图的地址,通过 ImagePipeline 来下载图片。 PixivMetaPipline 实现了 Item 的本地存储。

最后生成的目录结构如下:

daily
├── 20150901
│   ├── full
│ │ ├──97b4941fjw1e44ghlhrwdj20tk15o7r7.jpg
│ │ ├──......
│   └── meta.json
weekly
├── 20150901
monthly
├── 20150901
.....

GITHUB 地址: pixiv_crawl

6054 次点击
所在节点    分享创造
15 条回复
lidonghao
2015-09-29 16:45:35 +08:00
up~
TheC
2015-09-29 16:57:45 +08:00
作为曾经造作这个轮子的人...感叹一句这个轮子真的已经被造过无数次了

顺便给我的轮子打个广告: http://rakuen.thec.me/PixivRss/
cdxem713
2015-09-29 17:07:23 +08:00
@TheC 总的来说是比较经典的应用了。
PIXIV 对爬虫也比较宽容,之前没有对请求做限制的时候 IP 也不会被封。
Starduster
2015-09-29 17:25:21 +08:00
唔其实我也是想在学 Python 的时候做 P 站爬虫的 233 感觉已经看过很多人做了
cdxem713
2015-09-29 18:01:05 +08:00
@Starduster 需求驱动(・ω・)ノ
geew
2015-09-29 18:31:35 +08:00
@TheC 居然还提供 RSS 简直赞 话说官方有 rss 么
nikubenki
2015-09-29 18:47:54 +08:00
可不可以爬不在链接里的图呢
cdxem713
2015-09-29 19:39:24 +08:00
@nikubenki 额,不在链接里是指?
nikubenki
2015-09-29 19:42:26 +08:00
@cdxem713 就是说服务器里有这张图,但是没有链接指向它。
LancerComet
2015-09-29 19:44:20 +08:00
@TheC B 站基佬?
Velacielad
2015-09-29 20:26:46 +08:00
hhhh 我一开始学爬虫第一个程序也是爬 P 站日榜
cdxem713
2015-09-29 20:48:23 +08:00
nccer
2015-09-29 21:18:12 +08:00
我的第一个爬虫是爬我们学校的成绩表和个人信息
deadEgg
2015-09-30 08:36:37 +08:00
赞!
TheC
2015-09-30 14:27:25 +08:00
@geew 我一直觉得正是因为官方不提供 rss 才造成前前后后这么多人去爬 Pixiv 排行 233
@LancerComet 是 B 站不是基佬!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/224542

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX