这两天在学 Python，写了一个 Pixiv 热榜的爬虫，不知道有没有人感兴趣

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 3685 天前的主题，其中的信息可能已经有所发展或是发生改变。

不得不感慨二次元才是第一生产力，废寝忘食的各种查资料，总算是写完，能够正常运行了。

整体功能比较简单（简陋）。就是抓取热榜列表页，遍历提取其中的 illust_id,并组织成对应的 pixiv 详情页，在详情页中抽取出大图的地址，通过 ImagePipeline 来下载图片。 PixivMetaPipline 实现了 Item 的本地存储。

最后生成的目录结构如下：

daily
├── 20150901
│ ├── full
│ │ ├──97b4941fjw1e44ghlhrwdj20tk15o7r7.jpg
│ │ ├──......
│ └── meta.json
weekly
├── 20150901
monthly
├── 20150901
.....

GITHUB 地址： pixiv_crawl

pixiv

查资料

详情页

热榜

15 条回复 • 2015-09-30 14:27:25 +08:00

lidonghao

2015-09-29 16:45:35 +08:00

up~

TheC

2015-09-29 16:57:45 +08:00

作为曾经造作这个轮子的人...感叹一句这个轮子真的已经被造过无数次了

顺便给我的轮子打个广告： http://rakuen.thec.me/PixivRss/

cdxem713

2015-09-29 17:07:23 +08:00

@TheC 总的来说是比较经典的应用了。
PIXIV 对爬虫也比较宽容，之前没有对请求做限制的时候 IP 也不会被封。

Starduster

2015-09-29 17:25:21 +08:00

唔其实我也是想在学 Python 的时候做 P 站爬虫的 233 感觉已经看过很多人做了

cdxem713

2015-09-29 18:01:05 +08:00 via iPhone

@Starduster 需求驱动(・ω・)ノ

geew

2015-09-29 18:31:35 +08:00

@TheC 居然还提供 RSS 简直赞话说官方有 rss 么

nikubenki

2015-09-29 18:47:54 +08:00 via iPhone

可不可以爬不在链接里的图呢

cdxem713

2015-09-29 19:39:24 +08:00

@nikubenki 额，不在链接里是指？

nikubenki

2015-09-29 19:42:26 +08:00 via iPhone

@cdxem713 就是说服务器里有这张图，但是没有链接指向它。

LancerComet

2015-09-29 19:44:20 +08:00

@TheC B 站基佬？

Velacielad

2015-09-29 20:26:46 +08:00

hhhh 我一开始学爬虫第一个程序也是爬 P 站日榜

cdxem713

2015-09-29 20:48:23 +08:00 via iPhone

@Velacielad ^_^

nccer

2015-09-29 21:18:12 +08:00

我的第一个爬虫是爬我们学校的成绩表和个人信息

deadEgg

2015-09-30 08:36:37 +08:00

赞！

TheC

2015-09-30 14:27:25 +08:00

@geew 我一直觉得正是因为官方不提供 rss 才造成前前后后这么多人去爬 Pixiv 排行 233
@LancerComet 是 B 站不是基佬！