写了个糗事百科的爬虫,数据图片都爬下来,第一次写爬东西的玩意,轻喷啊!

2014-09-04 17:49:21 +08:00
 gotounix
https://github.com/zengqiu/spider/blob/master/qiushibaike.py
4866 次点击
所在节点    分享创造
10 条回复
zinev
2014-09-04 18:59:34 +08:00
试了下,下载的图片没点意思,不如换一个,下载壁纸也好啊
gotounix
2014-09-04 21:20:14 +08:00
@zinev 有道理,这就去写。
withrock
2014-09-05 01:47:32 +08:00
我也写了个多进程爬豆瓣的脚本。

http://git.oschina.net/mktime/python-learn/blob/master/qiubai.py

不过好久没更新了,不知道糗百有木有更新html结构。

如果更新的话,需要改正则表达式。

我用的sqlite3。
sunny1992
2014-09-05 09:55:41 +08:00
观摩
haython
2014-09-05 10:22:39 +08:00
@withrock 我感觉自己写正则的,都不是好爬虫
mkeith
2014-09-05 12:42:08 +08:00
草榴的
linKnowEasy
2014-09-05 14:53:24 +08:00
不是有官方api么。
myAngel
2014-09-16 18:28:27 +08:00
怎么运行。。。。。
gotounix
2014-09-17 16:22:54 +08:00
myAngel
2014-09-17 18:04:56 +08:00
兄弟,我想爬一个网站的内容,能做吗?
能做的话,QQ聊聊
马化腾:156224301

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/131750

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX