V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
ddfiberglass
V2EX  ›  Python

Python 爬虫如何爬取网页: http://****/?WebShieldSessionVerify=NLGt8zSnEqQvrVLli716

  •  
  •   ddfiberglass · 2016-02-26 16:04:55 +08:00 · 4774 次点击
    这是一个创建于 3189 天前的主题,其中的信息可能已经有所发展或是发生改变。
    这种带有 WebShieldSessionVerify 的网站如何利用 Python 爬虫爬取?另外, Selenium 这个在没装 Firefox 及 Chrome 的 VPS 上是不可以使用的吧?我是新学习 Python 爬虫的,想学习用 Scrapy 等现成的东西来搜集信息。这个网站暂时不贴出来了。需要的,我私信发送出来。
    11 条回复    2016-02-27 20:38:58 +08:00
    Septembers
        1
    Septembers  
       2016-02-26 16:07:01 +08:00 via Android   ❤️ 1
    1. V2EX 并没有私信
    2. Web 的东西本质都可以模拟
    3. 分析 分析 分析
    imn1
        2
    imn1  
       2016-02-26 16:11:43 +08:00   ❤️ 1
    看到 session 就想需要 cookies
    ddfiberglass
        3
    ddfiberglass  
    OP
       2016-02-26 16:14:41 +08:00
    谢谢,那就直接贴出来大家帮忙看看: 网站如: cnfrp 点 net 的。
    knightdf
        4
    knightdf  
       2016-02-26 16:16:48 +08:00   ❤️ 1
    Selenium 在 vps 上是可以使用的
    ddfiberglass
        5
    ddfiberglass  
    OP
       2016-02-26 16:41:31 +08:00
    @knightdf ,一般不是有个: from selenium import webdriver 。这个 webdriver 是浏览器之类的吗?不需要安装浏览器也可以使用哦?
    knightdf
        6
    knightdf  
       2016-02-26 17:05:31 +08:00   ❤️ 1
    @ddfiberglass 浏览器只是提供底层驱动的,也可以不用浏览器的驱动,用 PhantomJS 的驱动就可以了
    abelyao
        7
    abelyao  
       2016-02-26 17:37:38 +08:00   ❤️ 1
    好脑残的防护… 手动打开它家网站自动刷新了七八次才进到主页…
    chenxiaohong
        8
    chenxiaohong  
       2016-02-26 20:47:30 +08:00   ❤️ 1
    PhantomJS 不需要浏览器,自带 Webkit
    ddfiberglass
        9
    ddfiberglass  
    OP
       2016-02-26 22:02:15 +08:00
    谢谢 @knightdf @chenxiaohong 谢谢各位。我到时候再看看 Python 与 PhantomJS 的用法。据说 Pyspider 里面集成了 PhantomJS 。
    如果各位有好点的 PhantomJS 与 Python 结合使用方面的方法还请推荐下。

    @abelyao 是的,首次去看的时候要刷新很多次,不过再次进入某些页面就没那么多刷新次数了。呵呵。
    wizardforcel
        10
    wizardforcel  
       2016-02-27 20:01:22 +08:00   ❤️ 1
    应该是安全狗的 CC 防护。启用 Session 的话一般会把 Session ID 放到 cookie 里面,看看响应里有没有 Set-Cookie 消息头,找到"safedog-flow-item"下次带上就行了。
    ddfiberglass
        11
    ddfiberglass  
    OP
       2016-02-27 20:38:58 +08:00
    @wizardforcel OK ,谢谢,我到时候再仔细看看。有问题再来找各位。谢谢。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3489 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 11:41 · PVG 19:41 · LAX 03:41 · JFK 06:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.