现在淘宝详情页销量的反爬策略是如何实现的?我使用了稳定更换 ip 的代理池,仍会被 ban。

2017-12-04 11:35:45 +08:00
 ilovebaicai
  1. 抓取淘宝商品月销量,使用淘宝页面的[detailskip.taobao.com],进行抓取。
  2. 有使用稳定的代理池,每隔一段时间更换。
  3. 如果对爬虫请求来说,如果我请求的每次 ip 地址都不一样,还会被 ban。那这个原因是什么?是需要带 cookie 去访问,还是淘宝使用了行为分析一类的策略?
  4. 帮忙一起分析下目前淘宝的反爬策略,谢谢!
15582 次点击
所在节点    Python
49 条回复
ilovebaicai
2017-12-04 11:45:25 +08:00
目前发现 Amazon,也是这样的。使用了代理 ip 去请求,一段时间后,就会让你输入验证码。即使立即更换 ip,也不让访问。
vus520
2017-12-04 11:47:02 +08:00
估计是代理 IP 被记录了吧。
ilovebaicai
2017-12-04 11:50:07 +08:00
@vus520 这个可能性会有。但是我是使用 asdl 自建的代理池,IP 重复的概率不会很大。
shaobin
2017-12-04 11:54:20 +08:00
useragent ip cookie referer 等特征结合着来
firefox12
2017-12-04 12:02:18 +08:00
估计这些 ip 结合历史记录看 早就在黑名单了吧
qu3290052
2017-12-04 12:05:02 +08:00
1.ip 被拉黑
2,协议头长期没变
150
2017-12-04 12:07:14 +08:00
我天天浏览车托之家,也经常弹出个验证框,估计也把我当成了代理爬虫
qwertty01
2017-12-04 12:11:24 +08:00
使用的什么爬虫?
请求头 Cookie 之类的分析了吗?
动态爬虫之类的用了没?
enenaaa
2017-12-04 12:14:31 +08:00
似乎在哪里有人说过,淘宝反爬用的逻辑回归做判断。 也就是说 ip,浏览器信息,浏览行为都会是判断因素。
比如,如果一直只浏览某个页面, 那 99%是爬虫了。 所以需要模拟用户真实的浏览行为。
ytmsdy
2017-12-04 12:15:54 +08:00
ip,cookies,referer...
还有检查一下爬虫有没有进到蜜罐里面
Jackeriss
2017-12-04 12:22:52 +08:00
有可能会根据访问频率判断,也可能你访问了只有爬虫才会访问到的隐藏链接。
zzNucker
2017-12-04 12:28:03 +08:00
就换个 IP 就行了? 你开玩笑吧。。
LevineChen
2017-12-04 12:43:07 +08:00
你登录了吧 爬一会会强制登录的.
yuriko
2017-12-04 13:07:50 +08:00
ip 更换频率?分钟级的?
ilovebaicai
2017-12-04 13:13:26 +08:00
目前是 12 个 ip 地址,ip 地址是 5 分钟轮流更换一次,使用随机的 user-agent,header+referer 访问,没使用 cookie。但是即使更换了 ip 地址,这个 ip 地址还是会被 ban。
shaobin
2017-12-04 13:38:42 +08:00
要么你换出来的 ip 已经再黑名单,要么特质太过明显
ilovebaicai
2017-12-04 13:48:19 +08:00
@shaobin 您能说下,这个请求的特质,具体点是什么?我现在使用的 header 是随机,ip 地址也是代理随机拨号的。
wangxiaoer
2017-12-04 13:55:52 +08:00
你 IP 5 6 分钟切换一次,header 随机,这就有可能在出现下面的情况:

同一个 ip 在 5 6 分钟内的访问,每次 header 都特么不一样。

你说这算不算特征?
ilovebaicai
2017-12-04 14:05:11 +08:00
@wangxiaoer 如果按照您的说法,我一个公司就一个出口 ip,如果有几十个人同时在访问淘宝,这也是算是同 ip,不同 header 访问,但是并不会被 ban。可能并不会是这个原因导致的。
cheesea
2017-12-04 14:28:20 +08:00
X-Forwarded-for ?
你都用上拨号了,ip 怎么才这么少,不是每次拨号都会变么。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/411768

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX