Python 爬虫被屏蔽有好的办法吗?

2018-04-18 10:34:50 +08:00
 lixuda

除了用 selenium 模拟外,其他还有好的办法吗?

6865 次点击
所在节点    Python
34 条回复
sunwei0325
2018-04-18 10:42:57 +08:00
selenium 一般用来爬一些 js 搞上去的内容, 而不是解决爬虫被屏蔽的, 解决被屏蔽的方法一般是代理 ip 池, cookie 池, 随机 user-agent 等
lixuda
2018-04-18 10:53:36 +08:00
@sunwei0325 ip 没有封,user-agent 随机无效,只能打开浏览器访问就可以。
leir
2018-04-18 10:54:53 +08:00
什么网站?
lixuda
2018-04-18 10:57:50 +08:00
est
2018-04-18 11:13:46 +08:00
技术不过关啊。。。。
lixuda
2018-04-18 11:18:09 +08:00
@est 是的
huweic
2018-04-18 11:24:46 +08:00
该有的 Header 都加上
kimchan
2018-04-18 11:26:52 +08:00
mark, 之前也是遇过一个网站, 用爬虫各种伪装了都不行, 用浏览器访问却可以. 最后也是只能用 selenium😂😂. 看看大神们有什么更好的方法
lixuda
2018-04-18 11:34:49 +08:00
@huweic 应该不是,selenium 我也要加载很久才可以获得。提早获得也是提升爬虫页面。
magicO
2018-04-18 11:42:34 +08:00
抓包看看浏览器访问时的包
alen
2018-04-18 11:59:44 +08:00
限速控制并发
takato
2018-04-18 12:23:24 +08:00
把并发间隔整形成高斯分布试试。
wqzjk393
2018-04-18 12:27:53 +08:00
顺便问一下,像斗鱼这种第一次爬就直接屏蔽掉,返回 404 的,该怎么处理?
lixuda
2018-04-18 12:30:22 +08:00
@alen 没有并发,就访问了 2-3 次就这样。并且间隔很久
em70
2018-04-18 12:41:04 +08:00
说明伪装得不像,一般防盗链就 user-agent 和 referer 两个参数来判断,这两个都不填,傻子都知道你是机器人
lixuda
2018-04-18 12:57:00 +08:00
@em70 我都说了,无用。selenium 我也要加载很久才可以获得真实页面
wplct
2018-04-18 13:03:58 +08:00
并不是学艺不精,看来一下这个网址的反爬确实很严格
wplct
2018-04-18 13:06:07 +08:00
各种加载 js 运行,懒得搞的话还是调用浏览器吧
wplct
2018-04-18 13:11:33 +08:00
如果是要请求较多的数据的话,记得保存 cookies 会比较好一些
vtwoextb
2018-04-18 14:05:31 +08:00
重启路由器 更换家里的动态 ip https://github.com/hizdm/dynamic_ip

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/447723

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX