Python 爬虫被屏蔽有好的办法吗？

2018-04-18 10:34:50 +08:00

lixuda

除了用 selenium 模拟外，其他还有好的办法吗？

6931 次点击

所在节点

Python

34 条回复

sunwei0325

2018-04-18 10:42:57 +08:00

selenium 一般用来爬一些 js 搞上去的内容, 而不是解决爬虫被屏蔽的, 解决被屏蔽的方法一般是代理 ip 池, cookie 池, 随机 user-agent 等

lixuda

2018-04-18 10:53:36 +08:00

@sunwei0325 ip 没有封，user-agent 随机无效，只能打开浏览器访问就可以。

leir

2018-04-18 10:54:53 +08:00

什么网站？

lixuda

2018-04-18 10:57:50 +08:00

@leir 多 requests 几次就被认为是爬虫，浏览器是正常的。http://www.ledsmagazine.com/articles/2018/04/lrc-s-mark-rea-will-lead-ul-circadian-lighting-task-group.html

est

2018-04-18 11:13:46 +08:00

技术不过关啊。。。。

lixuda

2018-04-18 11:18:09 +08:00

@est 是的

huweic

2018-04-18 11:24:46 +08:00

该有的 Header 都加上

kimchan

2018-04-18 11:26:52 +08:00

mark, 之前也是遇过一个网站, 用爬虫各种伪装了都不行, 用浏览器访问却可以. 最后也是只能用 selenium😂😂. 看看大神们有什么更好的方法

lixuda

2018-04-18 11:34:49 +08:00

@huweic 应该不是，selenium 我也要加载很久才可以获得。提早获得也是提升爬虫页面。

magicO

2018-04-18 11:42:34 +08:00

抓包看看浏览器访问时的包

alen

2018-04-18 11:59:44 +08:00

限速控制并发

takato

2018-04-18 12:23:24 +08:00

把并发间隔整形成高斯分布试试。

wqzjk393

2018-04-18 12:27:53 +08:00

顺便问一下，像斗鱼这种第一次爬就直接屏蔽掉，返回 404 的，该怎么处理？

lixuda

2018-04-18 12:30:22 +08:00

@alen 没有并发，就访问了 2-3 次就这样。并且间隔很久

em70

2018-04-18 12:41:04 +08:00

说明伪装得不像,一般防盗链就 user-agent 和 referer 两个参数来判断,这两个都不填,傻子都知道你是机器人

lixuda

2018-04-18 12:57:00 +08:00

@em70 我都说了，无用。selenium 我也要加载很久才可以获得真实页面

wplct

2018-04-18 13:03:58 +08:00

并不是学艺不精，看来一下这个网址的反爬确实很严格

wplct

2018-04-18 13:06:07 +08:00

各种加载 js 运行，懒得搞的话还是调用浏览器吧

wplct

2018-04-18 13:11:33 +08:00

如果是要请求较多的数据的话，记得保存 cookies 会比较好一些

vtwoextb

2018-04-18 14:05:31 +08:00

重启路由器更换家里的动态 ip https://github.com/hizdm/dynamic_ip

第 1 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/447723

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.