搜狗微信的反爬虫规则是怎么样的？我每 2 分钟抓取一次可以吗？

gimp

2016-03-03 23:52:45 +08:00

ban 了，你就开代理呗

jessynt

2016-03-03 23:56:13 +08:00

尽可能模拟真实用户请求， 2 分钟一次当然没问题，如果被 Ban ，开代理或者更换 IP ，网上很多免费代理的，不过要注意自己验证一下代理可用性

shiny

2016-03-04 00:11:34 +08:00

2014 年的时候分析过并绕过了搜狗的微信反爬虫规则，无需换 ip 就能大规模采集。
只是采集来的微信内容很多有非法信息，被网警找过一次。

akaayy

2016-03-04 00:18:26 +08:00

@shiny 怎么绕过的？分享一下思路啊

@jessynt 真是用户访问多了都会出现验证码… -_-||

raycloud

2016-03-04 00:36:24 +08:00

@akaayy 不知验证码被破次数多了会怎样？

shiny

2016-03-04 00:39:50 +08:00

@shiny 2014 年的策略现在可能过期了吧，我提供下当时的笔记吧：

一、现象分析
1. 如果没有完全模拟浏览器，会在访问数页之后进入 antispider 页面要求输入验证码
2. 复制当前浏览器 cookies 后，可以访问更多页数，但一段时间后还是会触发验证码
3. 清理该 cookies 后无需验证码又可以访问
4. 此系统属于搜狗平台化运维体系 http://wenku.baidu.com/view/1fa63e39b90d6c85ec3ac6c5.html

二、两处 cookies 注入点
1. 访问首页注入 cookie SUID 标识了一次会话
2. antispider 页面有两种类型，第一次触发时仅仅使用 javascript 注入 cookies SNUID ，表示此次访问的不是 spider ；第二次触发后显示验证码，但是只要重新访问首页获取新的 SUID ，就可以避免验证码识别或者更换 IP
3. 自行拼接参数发送请求，可能导致嫌疑程度增加
4. user-agent 含 spider/bot 的具有重大作案嫌疑，触发时直接返回 403

三、反屏蔽机制——尽量模拟浏览器
1. 涉及 cookies 注入的图片和网页都访问一遍
2. 使用 javascript 注入的 cookies 全部抓取一遍并 setCookie
3. 如果 antispider 页面（ http://www.sogou.com/antispider/）出现验证码，清理旧 cookies ，重新发起请求

EOF.

est

2016-03-04 09:36:22 +08:00

搜狗收录不全的。我问过搜狗的哥们，他们也在绞尽脑汁想办法破解微信 app

814084764

2016-03-04 17:41:41 +08:00

Mark 。。

incompatible

2016-03-06 14:13:03 +08:00

@est 你这不是张口就讲胡话吗
搜狗现在是腾讯的半个儿子，不需要做什么破解微信 APP 之类的事儿

est

2016-03-06 16:27:25 +08:00

@incompatible 你厉害。隔空判断真理。

incompatible

2016-03-06 21:16:53 +08:00

@est 呵呵。你哥们在搜狗哪个部门啊？我还真想去打听打听他们打算怎么破解微信 app 呢。

est

2016-03-07 09:18:17 +08:00

@incompatible 这样吧，拿事实说话，搜狗能检索 “招商银行” 这个公众号发的文章吗？

incompatible

2016-03-07 14:43:48 +08:00

@est 搜不到。但是这并不能证明搜狗在做“绞尽脑汁去破解微信 app ”
如果你真的有个哥们儿在搜狗且说过这样的话，你不妨透露一下他的部门。
我作为搜狗前雇员，去打听一下“ 1 到底有没有这个部门 2 这个部门到底有没有在绞尽脑汁破解微信 app ”并不是什么难事儿。

est

2016-03-07 15:20:10 +08:00

@incompatible 好吧。我重新叙述一遍，“绞尽脑汁”是我夸张了。我所知道的情况是一位或者多位搜狗的开发者对逆向微信 app 很感兴趣而且做出了这方面尝试的努力。我进一步了解的细节是 weixin.sogou.com 并不能拿到全部的公众号数据所以他们产品需要另辟蹊径。用他们的话说，签合同入股不等于不使绊子，也不等于数据无保留全部开放。

czzsean

2016-03-29 15:29:45 +08:00

发现传送门文章更新频率比搜狗微信的还及时。