淘宝反爬求解

爬虫新人，主要要爬淘宝一些搜索结果和商品的销量。
参考的帖子非常多：
https://intoli.com/blog/making-chrome-headless-undetectable/
https://antoinevastel.com/bot%20detection/2018/01/17/detect-chrome-headless-v2.html

目前已经做的事情：
1.mitmdump 挂脚本，拦截 js （ sufei_data/3.6.8/index.js ）替换其中一些检测，比如知名的 f.webdriver,$cdc_asdjflasutopfhvcZLmcfl_
2.mitmdump 在页面 load 时设置了 navigator.language(注意，不是 languages，淘宝的 index.js 检测的没有复数),navigator.webdriver,window.chrome,window.navigator.permissions.query 属性
3.分析了 index.js ，测试了可能鉴定爬虫的特征代码（ L = [r, i, a, e, l]，B = [m, h, v, d, g];），这几个函数返回值 headless 和非 headless 下都是一致的

结果：
非 headless 下自动登陆大概率(90%)能通过，headless 下似乎一次都过不了。所以这下就郁闷了，不明白究竟是哪里遗漏了呢？ headless 和非 headless 还有什么特征不同吗？

frogex

2019-01-17 12:01:15 +08:00

最初以为仅仅是滑块轨迹问题，但实际上，用 webdriver 打开 chrome 后，怎么手动都滑不过，后来才知道可能有检测环境之类。说白也很难，如果特征有 100 个，不同的有 20 个，淘宝采集了 4 个，你没防那就被识破了

WaJueJiPrince

2019-01-17 12:58:11 +08:00

人工登陆，然后记录登陆信息可以吗？
使用 Selenium 中的 user-data-dir 参数。另外，淘宝好像是登陆以后频繁的翻页也会触发验证码。

frogex

2019-01-17 14:21:21 +08:00

@autulin 登陆没啥，手工获取 cookie，我的任务每周爬个 3 天就差不多可以了。问题主要是滑块不好过，非 headless 下大概率过，但这显然不够好

momocraft

2019-01-17 14:28:02 +08:00

无头有头总归有区别的。如果无头不会真的渲染到屏幕，那 canvas 的行为可能就大不一样。

以前甚至见过用 canvas 字体渲染差异做浏览器指纹的论文..

zr8657

2019-01-17 14:30:33 +08:00

淘宝的销量只算今天往前推 30 天，LZ 打算怎么算日销量？商品列表的话就算你是正常用户翻个 7-8 页左右也会有验证码，selenium 的话大概 5-6 页会有滑块，再往后会有手机验证码不知你遇到没。详情页不需要登录就有价格啊，我是直接堆 ip

frogex

2019-01-17 14:37:17 +08:00

@momocraft
我主要看了下 taobao 的那个 index.js 会有这么一句
function i() {
if (a())
return !1;
try {
return !!u.createElement("canvas").getContext("webgl")
} catch (n) {
return !1
}
}
function a() {
return "ontouchstart"in u
}
实际上对于 i()的返回值，有头无头都试过了是一样的，所以姑且认为没靠这些检查。
话说这也是个死坑，哪天淘宝又改了这个 js 用别的检测方法也就没用了

frogex

2019-01-17 14:50:48 +08:00

@zr8657
其实是要拿详情页的成交量而不是价格，实时的数据里面和外面有些不同的，包括价格。
手机验证码没遇到。翻页的验证码我是尝试 3 次滑动，没过 kill 掉记录时间，让父进程 x 分钟后拉起接着爬，虽然慢一点好歹也可以爬完。商品搜索列表页封的不严，但商品详情页就很严了，kill 很多次都还弹验证

frogex

2019-01-17 14:54:07 +08:00

@5200 怎么 low 的方法？只要不人工就不 low 啊
2 个月前有一个接口可以拿
https://detailskip.taobao.com/service/getData/1/p1/item/detail/sib.htm?itemId=x&modules=dynStock,qrcode,viewer,price,duty,xmpPromotion,delivery,activity,fqg,zjys,couponActivity,soldQuantity,originalPrice,tradeContract&callback=onSibRequestSuccess,
加 cookie 和 referer 就好了，现在封了，要在 cookie 里带一个 x5sec 才能过，不然返回 rgv587 这样的东西。而这个 x5sec 是通过滑块后才能获取，且只有半小时时间。

5200

2019-01-17 15:00:52 +08:00

@frogex
之前也是用 python，结果只要是通过 python 唤起的浏览器就一个劲的验证码。
后面专门拿了一台电脑，挂脚本，使用 AHK 写了一个小脚本。
模拟人工登录，拉取一些订单记录什么的。
获取一些信息，通过浏览器的控制器获取。
淘宝对页面刷新有频率限制，中间间隔几分钟再获取，
貌似频繁的翻页，和访问淘宝页面很容易出验证码，
他的频繁好像是针对的是这个 ip 下，如果 ip 里面有一个人有验证码了，
另外一个同 IP 下的账户也会出验证码。

frogex

2019-01-17 15:11:46 +08:00

@5200 感觉不是频率这么简单吧，我要的数据不是特别多，所以爬的时候很克制了。不过目前能爬完也是 kill + 等待拉起的方式，过搜索列表页还可以，过商品详情页就很难了，有时一直弹窗要验证

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/527879

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.