@
shiny 2014 年的策略现在可能过期了吧,我提供下当时的笔记吧:
一、现象分析
1. 如果没有完全模拟浏览器,会在访问数页之后进入 antispider 页面要求输入验证码
2. 复制当前浏览器 cookies 后,可以访问更多页数,但一段时间后还是会触发验证码
3. 清理该 cookies 后无需验证码又可以访问
4. 此系统属于搜狗平台化运维体系
http://wenku.baidu.com/view/1fa63e39b90d6c85ec3ac6c5.html二、两处 cookies 注入点
1. 访问首页注入 cookie SUID 标识了一次会话
2. antispider 页面有两种类型,第一次触发时仅仅使用 javascript 注入 cookies SNUID ,表示此次访问的不是 spider ;第二次触发后显示验证码,但是只要重新访问首页获取新的 SUID ,就可以避免验证码识别或者更换 IP
3. 自行拼接参数发送请求,可能导致嫌疑程度增加
4. user-agent 含 spider/bot 的具有重大作案嫌疑,触发时直接返回 403
三、反屏蔽机制——尽量模拟浏览器
1. 涉及 cookies 注入的图片和网页都访问一遍
2. 使用 javascript 注入的 cookies 全部抓取一遍并 setCookie
3. 如果 antispider 页面(
http://www.sogou.com/antispider/) 出现验证码,清理旧 cookies ,重新发起请求
EOF.