Python 爬虫如何爬取网页： http://****/?WebShieldSessionVerify=NLGt8zSnEqQvrVLli716

这种带有 WebShieldSessionVerify 的网站如何利用 Python 爬虫爬取？另外， Selenium 这个在没装 Firefox 及 Chrome 的 VPS 上是不可以使用的吧？我是新学习 Python 爬虫的，想学习用 Scrapy 等现成的东西来搜集信息。这个网站暂时不贴出来了。需要的，我私信发送出来。

Septembers

2016-02-26 16:07:01 +08:00

1. V2EX 并没有私信
2. Web 的东西本质都可以模拟
3. 分析分析分析

imn1

2016-02-26 16:11:43 +08:00

看到 session 就想需要 cookies

ddfiberglass

2016-02-26 16:14:41 +08:00

谢谢，那就直接贴出来大家帮忙看看：网站如： cnfrp 点 net 的。

knightdf

2016-02-26 16:16:48 +08:00

Selenium 在 vps 上是可以使用的

ddfiberglass

2016-02-26 16:41:31 +08:00

@knightdf ，一般不是有个： from selenium import webdriver 。这个 webdriver 是浏览器之类的吗？不需要安装浏览器也可以使用哦？

knightdf

2016-02-26 17:05:31 +08:00

@ddfiberglass 浏览器只是提供底层驱动的，也可以不用浏览器的驱动，用 PhantomJS 的驱动就可以了

abelyao

2016-02-26 17:37:38 +08:00

好脑残的防护… 手动打开它家网站自动刷新了七八次才进到主页…

chenxiaohong

2016-02-26 20:47:30 +08:00

PhantomJS 不需要浏览器，自带 Webkit

ddfiberglass

2016-02-26 22:02:15 +08:00

谢谢 @knightdf @chenxiaohong 谢谢各位。我到时候再看看 Python 与 PhantomJS 的用法。据说 Pyspider 里面集成了 PhantomJS 。
如果各位有好点的 PhantomJS 与 Python 结合使用方面的方法还请推荐下。

@abelyao 是的，首次去看的时候要刷新很多次，不过再次进入某些页面就没那么多刷新次数了。呵呵。

wizardforcel

2016-02-27 20:01:22 +08:00

应该是安全狗的 CC 防护。启用 Session 的话一般会把 Session ID 放到 cookie 里面，看看响应里有没有 Set-Cookie 消息头，找到"safedog-flow-item"下次带上就行了。

ddfiberglass

2016-02-27 20:38:58 +08:00

@wizardforcel OK ，谢谢，我到时候再仔细看看。有问题再来找各位。谢谢。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/259318

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.