Python 爬虫被屏蔽有好的办法吗?

2018-04-18 10:34:50 +08:00
 lixuda

除了用 selenium 模拟外,其他还有好的办法吗?

6867 次点击
所在节点    Python
34 条回复
JackYao
2018-04-18 14:13:05 +08:00
估计 js 检测吧, 能执行才是浏览器。
summerwar
2018-04-18 14:33:55 +08:00
贴地址 不然靠猜吗
craftx
2018-04-18 16:54:32 +08:00
请先说明是哪种方式的屏蔽
jamesfuxk
2018-04-18 17:29:09 +08:00
用抓包软件,设置好 header 啊。可以减少被封的概率的
cuberlzy
2018-04-18 17:46:27 +08:00
Chrome F12 找到接口 右键复制到 curl

然后贴到这里 https://curl.trillworks.com/ 把生成的代码运行一遍

看看行不行先~我猜多半是 Cookie 的问题
cuberlzy
2018-04-18 17:47:00 +08:00
浏览器也想被提示爬虫可以试试把 Cookie 清掉 这样多半就会提示你输验证码啦
Telegram
2018-04-18 19:20:27 +08:00
@kimchan #8 这个只能对症下药。
Leigg
2018-04-18 20:38:56 +08:00
UA 是比较基本的反爬,最好清除浏览器 cookie,打开 F12-network,再打开网站,这个时候分析一下请求的 method、header 一般就能找到关键所在
Leigg
2018-04-18 20:42:10 +08:00
你是要抓这个 URL 中的什么信息,中间的正文应该是可以直接获取的
golmic
2018-04-18 21:33:55 +08:00
浏览器可以,requests 就一定可以。愿意付费可以联系我,微信公众号 pydatame 有联系方式
qqpkat2
2018-04-19 01:14:34 +08:00
js 加密检测,了解一下
jimmyczm
2018-04-19 09:22:04 +08:00
抓包时发现应该是这个 pwhqfbsrcqtcbabfzrvevcde.js 文件作怪,在这个文件后面浏览器和 selenium 的内容变了
soho176
2018-04-23 09:28:25 +08:00
用火车头试试看!
leir
2018-04-23 14:52:46 +08:00
@lixuda 搞定了么?简单得话,火车头就可以了,要想分析的话可以看看楼 js,没有混淆,能够明显看到检查

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/447723

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX