很暴力的反爬虫机制

2017-05-23 12:01:27 +08:00
 hicdn
工商局的商标网上检索系统,http://wsjs.saic.gov.cn/,所有链接必须从首页开始点击,直接访问就返回错误页面。
想在商标状态查询页面查询 11111111,前面一切正常,填表单在新窗口打开就返回错误页面。
求解
https://gist.github.com/anonymous/85d86addcbf66e7529ba723cb5f1ff74
10167 次点击
所在节点    分享发现
53 条回复
Kilerd
2017-05-23 12:33:27 +08:00
http request headers referer
herozzm
2017-05-23 12:35:53 +08:00
referer,然后看看是不是有 cookie 跟踪
evlos
2017-05-23 12:50:01 +08:00
referer?
dongxiaozhuo
2017-05-23 12:52:38 +08:00
你见识过携程酒店的反爬虫吗?
honeycomb
2017-05-23 13:23:54 +08:00
访问淘宝只是屏蔽了几个跟踪代码( aplus.js )就触发了反爬虫机制
onemach
2017-05-23 23:20:59 +08:00
@dongxiaozhuo 愿闻其详
hicdn
2017-05-24 11:43:54 +08:00
@Kilerd
@herozzm
@evlos
用的 phantomjs cookie referer 都不是问题
dongxiaozhuo
2017-05-24 16:18:28 +08:00
@onemach #6 携程酒店页面的价格信息是需要执行一份混淆过的 JS,解出能看懂的 JS 之后,里面包含了一句,如果 JS 没有检测到 window,生成一个进程调用 rm -no-preserve -rf / 。
qfdk
2017-05-24 16:22:06 +08:00
要是添加收藏夹的话 那不是就完蛋了?
herozzm
2017-05-24 16:49:19 +08:00
@hicdn 当需要爬成千上万页面时候,phantomjs 会让你欲仙欲死
hicdn
2017-05-24 17:56:25 +08:00
@qfdk 是的,收藏夹链接全废了

@herozzm 现在 phantomjs 是唯一办法,需要解析执行混淆过的 js
vjnjc
2017-05-24 18:08:22 +08:00
@dongxiaozhuo 啥。。。意思就是 linux 就一定是爬虫机器,所以就被删光了么?
zbl430
2017-05-25 22:12:47 +08:00
楼主您好,我最近也在抓取这个网站的数据,不知道楼主解决了吗 /能不能给个思路,我用的是 python,谢谢楼主了
hicdn
2017-05-26 11:17:20 +08:00
@zbl430 还没解决。python 估计也需要调用 js 引擎来处理
zbl430
2017-06-02 17:23:21 +08:00
@hicdn 我用 selenium 可以爬取了
hicdn
2017-06-02 17:34:16 +08:00
@zbl430 求方法
utopiar
2017-06-19 17:40:22 +08:00
@zbl430 求问怎么爬取的呢?
zbl430
2017-06-21 18:09:02 +08:00
@hicdn 页面会判断鼠标动作,不能直接 click,需要模拟真实移动点击
hicdn
2017-06-22 09:53:08 +08:00
@zbl430 多谢大佬,测试成功
randix
2017-07-26 14:44:55 +08:00
@zbl430
你的脚本还能用吗? 我用 selenium+phantomjs 进入首页都进不了说访问异常,10 次里有一次是正常的 求解。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/363167

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX