V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
allencode
V2EX  ›  Python

安利妹子爬虫啦( Scrapy 爬妹子图片)

  •  1
     
  •   allencode · 2016-03-27 19:55:01 +08:00 · 5067 次点击
    这是一个创建于 2957 天前的主题,其中的信息可能已经有所发展或是发生改变。

    周末闲不住,学了 Scrapy ,写了个基于 Scrapy 的爬虫,爬了妹子网的图片(其实代码就是 copy and paste),仔细分析一下流程。好东西要共享。 自己测试了跑了十几分钟,没报异常,不得不说 Scrapy 真是好用,可是也很博大精深,慢慢学吧。

    GitHub 地址

    上妹子图:

    上跑动图:

    上 ReadMe 图:

    其实上面的都不是很重要,重要的是妹子网

    10 条回复    2016-04-04 14:55:22 +08:00
    MyFaith
        1
    MyFaith  
       2016-03-28 08:29:15 +08:00 via iPhone
    copy 后就成了你自己的?
    allencode
        2
    allencode  
    OP
       2016-03-28 09:15:42 +08:00 via Android
    @MyFaith 没有啊,声明了而且贴了原作链接啊,好东西要共享嘛,开源不就是要共同进步吗,先模仿再自己写。
    jy02201949
        3
    jy02201949  
       2016-03-28 09:24:26 +08:00
    Scrapy 目前在 win 上只能用 python2 吧,建议爬妹子图这种简单的需求,自己用 urllib 、 bs4 或者正则撸就好了,完全没有必要用 scrapy ,还能加深对爬虫的理解,顺带学习下码 python

    http://www.imooc.com/learn/550
    jy02201949
        4
    jy02201949  
       2016-03-28 09:24:43 +08:00
    jy02201949
        5
    jy02201949  
       2016-03-28 09:26:10 +08:00
    @jy02201949 手贱不小心发出去了

    安利慕客网教程
    正则
    http://www.imooc.com/learn/550
    简单爬虫
    http://www.imooc.com/learn/563
    allencode
        6
    allencode  
    OP
       2016-03-28 09:31:08 +08:00 via Android
    @jy02201949 的确是的,主要为了学习 Scrapy 这个神器,不过 Scrapy 的确非常好用!
    AndyCrz
        7
    AndyCrz  
       2016-03-28 11:38:45 +08:00
    为啥我觉得 Scrapy 特别的难用呢?
    allencode
        8
    allencode  
    OP
       2016-03-28 12:00:31 +08:00
    @AndyCrz 刚开始我也觉得。之前一直用 urllib , requests 这些库。配置 Scrapy 的确很麻烦。但是用上了就很喜欢。你不用考虑许多,起码爬虫的速度以及爬取的数据的量你不用担心。再者, Scrapy 是专门用来爬取的,它最大的特色就是异步调度和请求,这个是非常好的。小的数据量看不出来,一旦爬的数据量多或者时间久,就明显了。我们初学者,只需要理解和学习怎么去提取你需要的数据格式就行了。 scrapy 官方文档非常赞。我也才入门点皮毛,共同进步吧,加油哦
    AndyCrz
        9
    AndyCrz  
       2016-03-28 12:58:49 +08:00
    @allencode 看来你用的时间还是不够长,安装只是很小的一块,速度说实话真心不如 tornado 和 gevent ,很多不方便的坑在里面等着呢,慢慢体会他的框架的并不够强大,然后你就想自己写了
    omg21
        10
    omg21  
       2016-04-04 14:55:22 +08:00
    scrapy 现在有 python3 的版本了吗?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   815 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 22:31 · PVG 06:31 · LAX 15:31 · JFK 18:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.