Python 爬虫如何爬取网页: http://****/?WebShieldSessionVerify=NLGt8zSnEqQvrVLli716

2016-02-26 16:04:55 +08:00
 ddfiberglass
这种带有 WebShieldSessionVerify 的网站如何利用 Python 爬虫爬取?另外, Selenium 这个在没装 Firefox 及 Chrome 的 VPS 上是不可以使用的吧?我是新学习 Python 爬虫的,想学习用 Scrapy 等现成的东西来搜集信息。这个网站暂时不贴出来了。需要的,我私信发送出来。
4803 次点击
所在节点    Python
11 条回复
Septembers
2016-02-26 16:07:01 +08:00
1. V2EX 并没有私信
2. Web 的东西本质都可以模拟
3. 分析 分析 分析
imn1
2016-02-26 16:11:43 +08:00
看到 session 就想需要 cookies
ddfiberglass
2016-02-26 16:14:41 +08:00
谢谢,那就直接贴出来大家帮忙看看: 网站如: cnfrp 点 net 的。
knightdf
2016-02-26 16:16:48 +08:00
Selenium 在 vps 上是可以使用的
ddfiberglass
2016-02-26 16:41:31 +08:00
@knightdf ,一般不是有个: from selenium import webdriver 。这个 webdriver 是浏览器之类的吗?不需要安装浏览器也可以使用哦?
knightdf
2016-02-26 17:05:31 +08:00
@ddfiberglass 浏览器只是提供底层驱动的,也可以不用浏览器的驱动,用 PhantomJS 的驱动就可以了
abelyao
2016-02-26 17:37:38 +08:00
好脑残的防护… 手动打开它家网站自动刷新了七八次才进到主页…
chenxiaohong
2016-02-26 20:47:30 +08:00
PhantomJS 不需要浏览器,自带 Webkit
ddfiberglass
2016-02-26 22:02:15 +08:00
谢谢 @knightdf @chenxiaohong 谢谢各位。我到时候再看看 Python 与 PhantomJS 的用法。据说 Pyspider 里面集成了 PhantomJS 。
如果各位有好点的 PhantomJS 与 Python 结合使用方面的方法还请推荐下。

@abelyao 是的,首次去看的时候要刷新很多次,不过再次进入某些页面就没那么多刷新次数了。呵呵。
wizardforcel
2016-02-27 20:01:22 +08:00
应该是安全狗的 CC 防护。启用 Session 的话一般会把 Session ID 放到 cookie 里面,看看响应里有没有 Set-Cookie 消息头,找到"safedog-flow-item"下次带上就行了。
ddfiberglass
2016-02-27 20:38:58 +08:00
@wizardforcel OK ,谢谢,我到时候再仔细看看。有问题再来找各位。谢谢。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/259318

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX