宅男福利 - 一个图片爬虫,基于 Tornado 协程

2015-09-21 23:55:33 +08:00
 wangleineo
写了一个基于 Tornado 的图片爬虫: [https://github.com/RealHacker/python-gems/tree/master/image_crawler]( https://github.com/RealHacker/python-gems/tree/master/image_crawler)

成果展示:
![成果展示]( )

只需要两步:
- 在 ini 文件中设置几个选项:

; start url for crawler
starturl = http://pic.kdslife.com/

; regexes for links and image urls
linkregex=http://pic.kdslife.com/content_.*.html
imgregex=http://img.club.pchome.net/.*.jpg

; integer>=1, larger politeness means slower crawling
; but also less likely to be denied service
politeness=3

; the directory to store the downloaded images
imgdir=E:/kds/

; the min size of images that you want to download
minwidth=200
minheight=200

- 执行`python crawler.py http://start-url-to-crawl`

然后就等着收获吧!

欢迎报 bug ,提需求。
6793 次点击
所在节点    分享创造
17 条回复
Tink
2015-09-21 23:58:23 +08:00
原来大家都好这口
wangleineo
2015-09-21 23:59:46 +08:00
@Tink 人家只是研究爬虫,图片看也不看全删掉的 :)
Tink
2015-09-22 00:01:59 +08:00
@wangleineo 大家都懂 233
kchum
2015-09-22 00:25:28 +08:00
先收藏 😁
veau
2015-09-22 07:59:27 +08:00
原来大家都好这口
vietor
2015-09-22 08:26:35 +08:00
加数据库支持,关键字搜索, Web 预览,才行
radio777
2015-09-22 10:06:32 +08:00
硬盘不够大啊
alohathomas
2015-09-22 11:38:10 +08:00
小白表示不知道怎么用。
nisnaker
2015-09-22 11:54:37 +08:00
新手表示也想练手,请各位不吝推荐图片站~~
@all
nisnaker
2015-09-22 11:55:13 +08:00
我靠, v2 真有人叫 all
jamesfuxk
2015-09-22 14:02:15 +08:00
请问下,你是针对什么网站爬的?
zkzipoo
2015-09-22 14:54:47 +08:00
1.登陆模块?
2.命名规则?
zhajming
2015-09-22 15:14:25 +08:00
onlyxuyang
2015-09-22 18:52:01 +08:00
@zhajming 有水印 非高清 …… 差评…… 不抓……
wangleineo
2015-09-22 21:54:53 +08:00
@vietor 额 scrapy 好像都没有这么多功能吧
@jamesfuxk 图片站
@zkzipoo 命名规则现在就是简单的 4 位数字
@zhajming @onlyxuyang 只是拿这个站做个例子,改配置就可以爬别的网站。
scenix
2015-09-23 12:56:48 +08:00
哈哈 你这是把全站都爬下来的节奏啊。

我闲着没事写过一个从 1024 指定帖子页爬图转成 PDF 的,众所周知的原因还支持 socks5 代理。

https://github.com/scenix007/1024toPDF
gaocegege
2015-09-23 22:34:52 +08:00
咋不用 scrapy 啥的呢~

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/222608

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX