V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
rphoho
V2EX  ›  Python

Scrapy 如何爬瀑布流的站点?

  •  1
     
  •   rphoho · 2015-06-05 12:54:44 +08:00 · 8109 次点击
    这是一个创建于 3463 天前的主题,其中的信息可能已经有所发展或是发生改变。

    RT,Scrapy如何爬瀑布流的站点?

    16 条回复    2015-06-07 10:20:24 +08:00
    est
        1
    est  
       2015-06-05 13:01:03 +08:00
    我遇到了这个问题,解决办法是自己写。
    mthli
        2
    mthli  
       2015-06-05 13:11:02 +08:00 via Android
    瀑布流有"page="吧,试试找找看看?
    kisshere
        3
    kisshere  
       2015-06-05 13:34:47 +08:00 via Android
    抓包,提取网址,实在不会用casperjs吧
    mahone3297
        4
    mahone3297  
       2015-06-05 13:36:39 +08:00
    @est 自己写是什么意思?
    nikoukou
        5
    nikoukou  
       2015-06-05 14:03:12 +08:00
    casper.js可以试一试,就是速度比较慢,相当于cli的按键精灵。。
    rphoho
        6
    rphoho  
    OP
       2015-06-05 14:12:01 +08:00
    @nikoukou
    @kisshere
    所以只用scrapy是没办法实现的吗,一定要模拟浏览器行为?
    有或者有什么爬虫框架适合做这个吗?
    ericls
        7
    ericls  
       2015-06-05 14:13:58 +08:00
    @rphoho 你分析浏览器请求。
    alexapollo
        8
    alexapollo  
       2015-06-05 14:22:58 +08:00
    上内核做渲染!
    duobei
        9
    duobei  
       2015-06-05 14:37:54 +08:00
    @alexapollo 这个建议不错
    kisshere
        10
    kisshere  
       2015-06-05 16:16:14 +08:00 via Android
    @rphoho 刚都说了,叫你chrome F12键抓包,一般如果他的MySQL不是cursor分页的话,可以直接按照pageid递增就抓取了,遇到瀑布流是好事,这样更容易抓取
    kisshere
        11
    kisshere  
       2015-06-05 16:18:08 +08:00 via Android
    瀑布流一般都会ajax加载json,更容易抓取和解析
    allen3921
        12
    allen3921  
       2015-06-05 19:19:04 +08:00
    直接分析js
    ChiangDi
        13
    ChiangDi  
       2015-06-05 19:23:44 +08:00
    当然是看他的 js 代码,有时候可能爬虫都不要写就是一个 json API
    alexapollo
        14
    alexapollo  
       2015-06-06 00:35:06 +08:00
    @duobei 其实这是最标准的方法。。应该。。
    onlyice
        15
    onlyice  
       2015-06-06 20:21:56 +08:00
    如果不是瀑布流,你会怎么抓?
    其实是不是瀑布流跟 scrapy 没什么关系,只跟网站的 HTTP 接口是怎样的有关系。
    mingyun
        16
    mingyun  
       2015-06-07 10:20:24 +08:00
    casper.js没用过,有这方面的案例吗
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   6046 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 02:23 · PVG 10:23 · LAX 18:23 · JFK 21:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.