搜狗微信的反爬虫规则是怎么样的?我每 2 分钟抓取一次可以吗?

2016-03-03 23:07:14 +08:00
 akaayy
或者每五分钟呢?(我说抓一次就是说抓一页)
我要监控和抓的内容就是几个公众号,我可以尽量把频率隔的长一些

如果被 ban 了,我是过多长时间才能再次正常使用?
11642 次点击
所在节点    问与答
15 条回复
gimp
2016-03-03 23:52:45 +08:00
ban 了,你就开代理呗
jessynt
2016-03-03 23:56:13 +08:00
尽可能模拟真实用户请求, 2 分钟一次当然没问题,如果被 Ban ,开代理 或者更换 IP ,网上很多免费代理的,不过要注意自己验证一下代理可用性
shiny
2016-03-04 00:11:34 +08:00
2014 年的时候分析过并绕过了搜狗的微信反爬虫规则,无需换 ip 就能大规模采集。
只是采集来的微信内容很多有非法信息,被网警找过一次。
akaayy
2016-03-04 00:18:26 +08:00
@shiny 怎么绕过的?分享一下思路啊


@jessynt 真是用户访问多了都会出现验证码… -_-||
raycloud
2016-03-04 00:36:24 +08:00
@akaayy 不知验证码被破次数多了会怎样?
shiny
2016-03-04 00:39:50 +08:00
@shiny 2014 年的策略现在可能过期了吧,我提供下当时的笔记吧:

一、现象分析
1. 如果没有完全模拟浏览器,会在访问数页之后进入 antispider 页面要求输入验证码
2. 复制当前浏览器 cookies 后,可以访问更多页数,但一段时间后还是会触发验证码
3. 清理该 cookies 后无需验证码又可以访问
4. 此系统属于搜狗平台化运维体系 http://wenku.baidu.com/view/1fa63e39b90d6c85ec3ac6c5.html

二、两处 cookies 注入点
1. 访问首页注入 cookie SUID 标识了一次会话
2. antispider 页面有两种类型,第一次触发时仅仅使用 javascript 注入 cookies SNUID ,表示此次访问的不是 spider ;第二次触发后显示验证码,但是只要重新访问首页获取新的 SUID ,就可以避免验证码识别或者更换 IP
3. 自行拼接参数发送请求,可能导致嫌疑程度增加
4. user-agent 含 spider/bot 的具有重大作案嫌疑,触发时直接返回 403

三、反屏蔽机制——尽量模拟浏览器
1. 涉及 cookies 注入的图片和网页都访问一遍
2. 使用 javascript 注入的 cookies 全部抓取一遍并 setCookie
3. 如果 antispider 页面( http://www.sogou.com/antispider/) 出现验证码,清理旧 cookies ,重新发起请求

EOF.
est
2016-03-04 09:36:22 +08:00
搜狗收录不全的。我问过搜狗的哥们,他们也在绞尽脑汁想办法破解 微信 app
814084764
2016-03-04 17:41:41 +08:00
Mark 。。
incompatible
2016-03-06 14:13:03 +08:00
@est 你这不是张口就讲胡话吗
搜狗现在是腾讯的半个儿子,不需要做什么破解微信 APP 之类的事儿
est
2016-03-06 16:27:25 +08:00
@incompatible 你厉害。隔空判断真理。
incompatible
2016-03-06 21:16:53 +08:00
@est 呵呵。你哥们在搜狗哪个部门啊? 我还真想去打听打听他们打算怎么破解微信 app 呢。
est
2016-03-07 09:18:17 +08:00
@incompatible 这样吧,拿事实说话,搜狗能检索 “招商银行” 这个公众号发的文章吗?
incompatible
2016-03-07 14:43:48 +08:00
@est 搜不到。但是这并不能证明搜狗在做“绞尽脑汁去破解微信 app ”
如果你真的有个哥们儿在搜狗且说过这样的话,你不妨透露一下他的部门。
我作为搜狗前雇员,去打听一下“ 1 到底有没有这个部门 2 这个部门到底有没有在绞尽脑汁破解微信 app ”并不是什么难事儿。
est
2016-03-07 15:20:10 +08:00
@incompatible 好吧。我重新叙述一遍,“绞尽脑汁”是我夸张了。我所知道的情况是一位或者多位搜狗的开发者对逆向微信 app 很感兴趣而且做出了这方面尝试的努力。我进一步了解的细节是 weixin.sogou.com 并不能拿到全部的公众号数据所以他们产品需要另辟蹊径。用他们的话说,签合同入股不等于不使绊子,也不等于数据无保留全部开放。
czzsean
2016-03-29 15:29:45 +08:00
发现传送门文章更新频率比搜狗微信的还及时。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/260950

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX