1
delphiqin 2014-02-27 19:03:59 +08:00 1
你尝试过伪造 url reffer, user agent 以及 cookie 吗?
|
2
delphiqin 2014-02-27 19:30:05 +08:00 1
纠正,应该是 url referer
搭车问一下我的问题: 几个月前我抓过 www.appannie.com 这个网站的数据,程序一开始可以正常运行,但一般过2天左右,就会抓不到数据了,返回的错误码是 503 Service Temporarily Unavailable。我当时在抓数据的时候,会伪造 host, user agent, referer, cookie,但还是会被 appannie 检查出来是爬虫。之所以知道是被检测出来了,是因为程序是跑在公司内网的,在程序抓不回来数据的时候,我用浏览器依然能正常浏览那个网站。 我想问一下,他们是怎么检测出来的?应该怎么破解? 这是我用的抓数据的代码: https://gist.github.com/DelphiQin/b4f3efe40bc77a17b28d |
3
robertding OP @delphiqin 谢谢 我去试试
|
4
robertding OP @robertding 谢了 果然靠谱
|
5
oott123 2014-02-28 08:13:33 +08:00 via Android
@delphiqin 你可以试试抓一段时间之后清理一次
cookie 再继续爬… 还看到有变态的,会在页面里嵌入一个 js 脚本,下次访问这个页面的时候,如果没有看到那个 js 设置的 cookie 就拒绝…不过我想你说的这个站没有这么高科技,应该就是针对 cookie 进行了请求限制。 |
6
ameba 2015-10-30 10:35:29 +08:00
发货了~
|
7
ameba 2015-11-02 11:30:48 +08:00
少年 登旺旺
|