现在淘宝详情页销量的反爬策略是如何实现的?我使用了稳定更换 ip 的代理池,仍会被 ban。

2017-12-04 11:35:45 +08:00
 ilovebaicai
  1. 抓取淘宝商品月销量,使用淘宝页面的[detailskip.taobao.com],进行抓取。
  2. 有使用稳定的代理池,每隔一段时间更换。
  3. 如果对爬虫请求来说,如果我请求的每次 ip 地址都不一样,还会被 ban。那这个原因是什么?是需要带 cookie 去访问,还是淘宝使用了行为分析一类的策略?
  4. 帮忙一起分析下目前淘宝的反爬策略,谢谢!
15714 次点击
所在节点    Python
49 条回复
dewi
2017-12-04 14:38:46 +08:00
@ilovebaicai MAC 地址你的是固定的,但是你的 header 随机,不查你查谁= =
ilovebaicai
2017-12-04 14:45:13 +08:00
@cheesea 预算问题。只有少量的 asdl 的拨号服务。所以 ip 地址更换的并不会很快,但是每次拨号会改变 ip 地址。
ilovebaicai
2017-12-04 14:45:56 +08:00
@dewi 这个确实是个问题,谢谢您!
ilovebaicai
2017-12-04 14:46:42 +08:00
@cheesea X-Forwarded-for 这个也可能是追踪到了原始 ip,谢谢您!
find456789
2017-12-04 14:56:30 +08:00
@dewi 网页得不到 mac 地址吧
capo
2017-12-04 15:01:38 +08:00
请问一下用户的 MAC 地址是可以获取的吗?
wang12xishan
2017-12-04 15:12:36 +08:00
@dewi 同问 用什么办法可以获取到 MAC 地址
Level5
2017-12-04 15:17:46 +08:00
网页得到 mac 地址?
记得谷歌也是这样。换 ip 已经没用了。有人用 py 包调 IE 浏览器模拟用户请求还是一样被 ban,觉得是不是页面 JS 获取了用户鼠标事件等判断?
smilekung
2017-12-04 15:23:01 +08:00
大概率是触发蜜罐了吧 或者是页面检测了鼠标轨迹 我碰到过 打开页面会先加载反爬 js 然后检测鼠标,不通过就不允许后续接口请求
guotie
2017-12-04 15:23:51 +08:00
mac 地址从报文中是获取不到的,路由每一跳都会更换 mac 头
ilovebaicai
2017-12-04 15:29:33 +08:00
貌似确认获取不到 mac 地址,可参考 http://www.jianshu.com/p/61b1506e4c0f。
mazao
2017-12-04 15:37:04 +08:00
除了 ie 使用 ActiveX 能获取 mac 以外,浏览器无法获取 mac 吧?不然不符合浏览器的安全协议了。 @dewi
ilovebaicai
2017-12-04 15:53:08 +08:00
@smilekung 这个是一个可能的原因,谢谢您!
wangxiaoer
2017-12-04 16:35:43 +08:00
@ilovebaicai 几十个人同时访问淘宝也不可能出现每个 ip 每个请求的 header 都随机吧。

同一个 ip header 有不同是正常的,但是没有一个相同的就是不正常了
binux
2017-12-04 16:44:53 +08:00
所以随机 UA 这东西是谁想出来的?
你不去模拟真实的用户,或者你自己都不知道真实的用户行为是怎样的,不被封才怪了。
402645707
2017-12-04 16:59:27 +08:00
淘宝 ua 我有个建议,测试发现 ie 浏览器的 ua 可以有效避免验证码
ryang
2017-12-04 19:26:25 +08:00
可以考虑用 selenium+chrome 的方式爬取呢。
目前我用公司的 ip 地址,爬 1000 条没有要求登录。猜测可能是公司人比较多,所以同一个 ip 经常会有不同的人登录或者不登录访问淘宝。
如果用代理,爬个 10 几条就需要登录,但是用密码加短信验证码的方式登录后,再爬取 1000 多条都没有限制。
akira
2017-12-04 19:50:05 +08:00
尽可能模拟真实用户提交的数据,而不是尽可能的随机
LukeChien
2017-12-04 20:26:29 +08:00
你的 IP 不是民用的吧,可以反向解析
safeoy
2017-12-05 00:16:36 +08:00
试试民用宽带,ADSL 拨号换 IP

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/411768

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX