很暴力的反爬虫机制

2017-05-23 12:01:27 +08:00

hicdn

工商局的商标网上检索系统，http://wsjs.saic.gov.cn/，所有链接必须从首页开始点击，直接访问就返回错误页面。
想在商标状态查询页面查询 11111111，前面一切正常，填表单在新窗口打开就返回错误页面。
求解
https://gist.github.com/anonymous/85d86addcbf66e7529ba723cb5f1ff74

10235 次点击

所在节点

分享发现

53 条回复

Kilerd

2017-05-23 12:33:27 +08:00

http request headers referer

herozzm

2017-05-23 12:35:53 +08:00

referer，然后看看是不是有 cookie 跟踪

evlos

2017-05-23 12:50:01 +08:00

referer?

dongxiaozhuo

2017-05-23 12:52:38 +08:00

你见识过携程酒店的反爬虫吗？

honeycomb

2017-05-23 13:23:54 +08:00

访问淘宝只是屏蔽了几个跟踪代码（ aplus.js ）就触发了反爬虫机制

onemach

2017-05-23 23:20:59 +08:00

@dongxiaozhuo 愿闻其详

hicdn

2017-05-24 11:43:54 +08:00

@Kilerd
@herozzm
@evlos
用的 phantomjs cookie referer 都不是问题

dongxiaozhuo

2017-05-24 16:18:28 +08:00

@onemach #6 携程酒店页面的价格信息是需要执行一份混淆过的 JS，解出能看懂的 JS 之后，里面包含了一句，如果 JS 没有检测到 window，生成一个进程调用 rm -no-preserve -rf / 。

qfdk

2017-05-24 16:22:06 +08:00

要是添加收藏夹的话那不是就完蛋了？

herozzm

2017-05-24 16:49:19 +08:00

@hicdn 当需要爬成千上万页面时候，phantomjs 会让你欲仙欲死

hicdn

2017-05-24 17:56:25 +08:00

@qfdk 是的，收藏夹链接全废了

@herozzm 现在 phantomjs 是唯一办法，需要解析执行混淆过的 js

vjnjc

2017-05-24 18:08:22 +08:00

@dongxiaozhuo 啥。。。意思就是 linux 就一定是爬虫机器，所以就被删光了么？

zbl430

2017-05-25 22:12:47 +08:00

楼主您好，我最近也在抓取这个网站的数据，不知道楼主解决了吗 /能不能给个思路，我用的是 python，谢谢楼主了

hicdn

2017-05-26 11:17:20 +08:00

@zbl430 还没解决。python 估计也需要调用 js 引擎来处理

zbl430

2017-06-02 17:23:21 +08:00

@hicdn 我用 selenium 可以爬取了

hicdn

2017-06-02 17:34:16 +08:00

@zbl430 求方法

utopiar

2017-06-19 17:40:22 +08:00

@zbl430 求问怎么爬取的呢？

zbl430

2017-06-21 18:09:02 +08:00

@hicdn 页面会判断鼠标动作，不能直接 click，需要模拟真实移动点击

hicdn

2017-06-22 09:53:08 +08:00

@zbl430 多谢大佬，测试成功

randix

2017-07-26 14:44:55 +08:00

@zbl430
你的脚本还能用吗？我用 selenium+phantomjs 进入首页都进不了说访问异常，10 次里有一次是正常的求解。

第 1 页／共 3 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/363167

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.