很暴力的反爬虫机制

2017-05-23 12:01:27 +08:00
 hicdn
工商局的商标网上检索系统,http://wsjs.saic.gov.cn/,所有链接必须从首页开始点击,直接访问就返回错误页面。
想在商标状态查询页面查询 11111111,前面一切正常,填表单在新窗口打开就返回错误页面。
求解
https://gist.github.com/anonymous/85d86addcbf66e7529ba723cb5f1ff74
10167 次点击
所在节点    分享发现
53 条回复
hicdn
2017-09-20 22:49:04 +08:00
@airplane 我很久没爬了
airplane
2017-09-21 10:05:58 +08:00
@hicdn 昨晚调试很久,发现原来是服务器检测出是 webdriver,请问你是怎么弄掉 selenium 特征的呢
airplane
2017-09-23 16:42:49 +08:00
airplane
2017-09-25 19:52:48 +08:00
@zbl430 0.0
hicdn
2017-09-26 13:55:22 +08:00
@airplane 我用的 phantomjs,没用 selenium。修改特征见最上面 gist 3-7 行。
zbl430
2017-09-26 17:48:05 +08:00
@airplane 的确只加了鼠标的移动,我用的是 firefox50 还是 52 ,高版本会有问题
airplane
2017-11-22 11:49:14 +08:00
@zbl430 鼠标移动你是用 js 实现的还是直接用 selenium 实现的
zbl430
2017-11-22 14:33:30 +08:00
@airplane from pymouse import PyMouse
quatix
2018-02-18 23:35:03 +08:00
@hicdn
window _Selenium_IDE_Recorder,_selenium,callSelenium
document __driver_evaluate,__webdriver_evaluate,__selenium_evaluate,__fxdriver_evaluate,__driver_unwrapped,__webdriver_unwrapped,__selenium_unwrapped,__fxdriver_unwrapped,__webdriver_script_func,__webdriver_script_fn
document.documentElement.getAttribute ["selenium", "webdriver", "driver"]
window callPhantom,_phantom

请问楼主可否分享一下这几个检查点是怎么解决的?
quatix
2018-02-18 23:58:40 +08:00
@quatix 忘了说了,请教一下 chromedriver 中怎么处理
kw
2018-12-24 13:03:40 +08:00
@zbl430
@hicdn
@Marsss
@quatix
@randix
各位大佬都怎么解决的,可否帮忙一下
vx:17625611146
谢!!!
Marsss
2018-12-24 13:47:18 +08:00
@kw 这帖子都过了多久了,已经不写爬虫了。我当时解决的思路就是直接用 chrome 提供的接口去驱动 chrome 抓取,使用 websocket 协议通信,使用 javascript 控制浏览器行为,具体可以看一下 chrome 的远程调试协议。这些工作原本是 selenium 替你做了,只是现在人家针对性的检测了 selenium|webdriver,造成直接用 selenium 的抓取不了。

另外,友情提示一下,爬虫有风险,劝君别盲目背锅。
kw
2018-12-24 15:23:56 +08:00
@Marsss 谢谢 那现在不能用 selenium 了?检测到了怎么办

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/363167

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX