安利妹子爬虫啦( Scrapy 爬妹子图片)

2016-03-27 19:55:01 +08:00
 allencode

周末闲不住,学了 Scrapy ,写了个基于 Scrapy 的爬虫,爬了妹子网的图片(其实代码就是 copy and paste),仔细分析一下流程。好东西要共享。 自己测试了跑了十几分钟,没报异常,不得不说 Scrapy 真是好用,可是也很博大精深,慢慢学吧。

GitHub 地址

上妹子图:

上跑动图:

上 ReadMe 图:

其实上面的都不是很重要,重要的是妹子网

5096 次点击
所在节点    Python
10 条回复
MyFaith
2016-03-28 08:29:15 +08:00
copy 后就成了你自己的?
allencode
2016-03-28 09:15:42 +08:00
@MyFaith 没有啊,声明了而且贴了原作链接啊,好东西要共享嘛,开源不就是要共同进步吗,先模仿再自己写。
jy02201949
2016-03-28 09:24:26 +08:00
Scrapy 目前在 win 上只能用 python2 吧,建议爬妹子图这种简单的需求,自己用 urllib 、 bs4 或者正则撸就好了,完全没有必要用 scrapy ,还能加深对爬虫的理解,顺带学习下码 python

http://www.imooc.com/learn/550
jy02201949
2016-03-28 09:24:43 +08:00
jy02201949
2016-03-28 09:26:10 +08:00
@jy02201949 手贱不小心发出去了

安利慕客网教程
正则
http://www.imooc.com/learn/550
简单爬虫
http://www.imooc.com/learn/563
allencode
2016-03-28 09:31:08 +08:00
@jy02201949 的确是的,主要为了学习 Scrapy 这个神器,不过 Scrapy 的确非常好用!
AndyCrz
2016-03-28 11:38:45 +08:00
为啥我觉得 Scrapy 特别的难用呢?
allencode
2016-03-28 12:00:31 +08:00
@AndyCrz 刚开始我也觉得。之前一直用 urllib , requests 这些库。配置 Scrapy 的确很麻烦。但是用上了就很喜欢。你不用考虑许多,起码爬虫的速度以及爬取的数据的量你不用担心。再者, Scrapy 是专门用来爬取的,它最大的特色就是异步调度和请求,这个是非常好的。小的数据量看不出来,一旦爬的数据量多或者时间久,就明显了。我们初学者,只需要理解和学习怎么去提取你需要的数据格式就行了。 scrapy 官方文档非常赞。我也才入门点皮毛,共同进步吧,加油哦
AndyCrz
2016-03-28 12:58:49 +08:00
@allencode 看来你用的时间还是不够长,安装只是很小的一块,速度说实话真心不如 tornado 和 gevent ,很多不方便的坑在里面等着呢,慢慢体会他的框架的并不够强大,然后你就想自己写了
omg21
2016-04-04 14:55:22 +08:00
scrapy 现在有 python3 的版本了吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/266692

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX