抓取淘宝店铺商品

2014-04-12 15:09:19 +08:00
 jerryge
写了个简单的爬虫,想抓下一家淘宝店正在出售的宝贝(/search.htm?spm=a1z10.1.0.0.N8xbI3&search=y&orderType=hotsell_desc)。请求频率7秒抓一次,但发现抓了几次之后就要求登陆,跳转到登陆页面。请问有类似经验的同学吗
7559 次点击
所在节点    Node.js
11 条回复
manhere
2014-04-12 15:53:44 +08:00
淘宝api
leofml
2014-04-12 15:54:30 +08:00
检查 Referer, UA 和 Cookies
jsonline
2014-04-12 16:33:14 +08:00
用phantom吧
alay9999
2014-04-12 20:18:36 +08:00
@manhere API 好像只能提供你账号对应店铺的商品数据吧
andrewrong
2014-04-12 20:40:58 +08:00
公司之前是使用淘宝API的,但是后来淘宝封了,现在的话是自己写爬虫爬,但是为了防止淘宝识别就通过代理(VPN)进行爬,这样就可以防止淘宝探测到...你的现象比较像被淘宝检测出然后进行限制了..当然是我的猜测...不是很懂
alexapollo
2014-04-12 20:42:30 +08:00
bladecamper
2014-04-12 21:36:51 +08:00
API现在基本等于封闭状态。
用火车头采集器吧。
ryan10107
2014-04-12 22:37:06 +08:00
可以AD拨号吧,搞多点cookie和header的模拟,现在淘宝封店铺商品列表封得很厉害,做爬虫还是看IP的
jerryge
2014-04-13 22:17:28 +08:00
@andrewrong 是指通过VPN轮训IP吗
jerryge
2014-04-13 22:18:06 +08:00
@manhere 现在的API基本废了
jerryge
2014-04-13 22:19:16 +08:00
@ryan10107 倒霉孩子不是ADSL上网的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/108265

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX