V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
pc10201
V2EX  ›  Python

pyspider 与 scrapy 相比如何?

  •  
  •   pc10201 · 2015-12-09 23:00:45 +08:00 · 7523 次点击
    这是一个创建于 3275 天前的主题,其中的信息可能已经有所发展或是发生改变。
    如题~
    10 条回复    2015-12-11 10:02:13 +08:00
    est
        1
    est  
       2015-12-09 23:01:44 +08:00
    都不好用。还是自己撸。
    fengxiang
        2
    fengxiang  
       2015-12-09 23:12:30 +08:00 via Android
    还是自己写吧
    WildCat
        3
    WildCat  
       2015-12-09 23:16:29 +08:00 via iPhone
    都不好用+1
    PythonAnswer
        4
    PythonAnswer  
       2015-12-10 00:18:09 +08:00
    临时要搞到数据, 就随便拿来一个用上再说. 目前手头没有什么依赖 daemon 爬虫的项目.
    tanteng
        5
    tanteng  
       2015-12-10 00:25:00 +08:00
    scrapy+1
    udumbara
        6
    udumbara  
       2015-12-10 00:34:21 +08:00
    冲着对 python3 的支持 pyspider+1
    popil1987
        7
    popil1987  
       2015-12-10 10:01:58 +08:00
    scrapy 的 downloader 是很好用的,可以处理超时, 301 , zip 压缩等情况,没必要自己写了。
    pyspider 很好用,有 webui ,但是定制额外功能不是很好用
    leavic
        8
    leavic  
       2015-12-10 16:51:02 +08:00
    scrapy 非常好用
    pango
        9
    pango  
       2015-12-10 20:14:01 +08:00   ❤️ 3
    楼上说都不好用的是什么心态。。。,还自己撸,你撸撸看。
    如果只是小范围的抓取,比如一次性抓一个小网站(比如 1 万页以内),那自己随便写写问题不大。但也不如直接用 scrapy 或者 pyspider 来的快速方便。
    涉及到几十万上百万页面、需要抓取几十上百个网站的, scrapy 和 pyspider 都可以胜任,自己写就算了。
    如果要监测网站更新,并随时把更新抓取过来的, pyspider 完胜 scrapy 。
    如果懒得自己写抽取规则, pyspider 的 webui 是你的选择。
    如果需要做资源下载的,比如下载图片、软件、视频的,如 @popil1987 所说, scrapy 完胜 pyspider 。
    如果是要再开发一个 google 出来,两种都不够用。
    MyFaith
        10
    MyFaith  
       2015-12-11 10:02:13 +08:00   ❤️ 2
    @pango +1 ,上面说自己撸的,也许连 Python 语法都不会
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3254 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 12:29 · PVG 20:29 · LAX 04:29 · JFK 07:29
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.