抓取淘宝的商品信息需要大量的淘宝账号吗?

2019-01-26 18:25:17 +08:00
 okface
账号会很容易被封吗?如果是的话从哪里购买大批小号?
6762 次点击
所在节点    Python
26 条回复
iiduce
2019-01-26 18:27:07 +08:00
哪有这么麻烦。淘宝开放平台申请 api 即可。
okface
2019-01-26 18:42:15 +08:00
@iiduce 这个 api 肯定是有限制的吧,现在难道都不需要抓取了?
okface
2019-01-26 18:48:17 +08:00
@iiduce 好吧我看了一下收费不便宜啊~
Veigar
2019-01-26 18:59:49 +08:00
技术圈很多人不知道的一个事实是,以中国现行的法律标准,几乎所有爬虫工程师全都违法…
Vegetable
2019-01-26 19:04:26 +08:00
@Veigar 我怎么认为所有的爬虫工程师都知道自己做的事不合法呢…
ioven
2019-01-26 19:23:57 +08:00
小区搭建一个无密码的高强度 wifi,然后嗅探 cookies,然后。。。

据说某大佬就是这种操作
levon
2019-01-26 19:32:24 +08:00
浪费时间
zr8657
2019-01-26 19:39:50 +08:00
@ioven 感觉挺厉害,淘宝的 cookie 又多又杂。

如果不需要商品销量和库存的话还是挺简单,只有商品列表要登录,详情不需要登录,不过最近好像评论接口需要登录了。
kimown
2019-01-26 19:52:54 +08:00
@Veigar
请问是哪条法律?
flyz
2019-01-26 20:00:00 +08:00
@kimown 非法入侵计算机信息系统罪。
这个口袋可以装很多。
lhx2008
2019-01-26 20:13:07 +08:00
@ioven HTTPS 嗅探不到吧
farverfull
2019-01-26 20:40:42 +08:00
https 不是要在手机上装证书才行么?
@ioven
rekulas
2019-01-26 20:52:24 +08:00
@flyz 这吹的就有点过了,除非是想搞某个人会安排这个罪名,按法律来的话正常的爬虫应该是合法的,毕竟网站都把数据放到公网上了,法律对公共场所隐私是缺乏保护的
wuchujie
2019-01-26 22:52:18 +08:00
@farverfull https 嗅探。。自建 WiFi 自建 dns 服务器
tiaod
2019-01-26 22:54:06 +08:00
@rekulas 但是只要网站有反爬技术,哪怕最简单最弱智的那种,你写个爬虫用技术手段绕过了,就是非法入侵计算机信息系统罪
kernel
2019-01-26 22:55:46 +08:00
@wuchujie 自建啥也做不到,除非能侵入对方电脑装个证书
Kagari
2019-01-26 23:37:16 +08:00
@rekulas 你别改 UA 啊
molvqingtai
2019-01-27 02:03:52 +08:00
@rekulas 只要没遵守 Robots 协议就算
AslanFong
2019-01-27 08:09:34 +08:00
前公司广告平台做过淘宝商品详情的爬虫,需要商家自己填写淘宝的商品 ID,然后我们再特定的爬。没爬过商品列表,感觉这个业务不符合实际。
ioven
2019-01-27 08:10:06 +08:00
@lhx2008
@farverfull
貌似中间使用一些灰产技术,没细研究

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/530873

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX