请教一下爬虫技术

淘宝的生意参谋，这种平台为啥有全网各平台的数据，甚至还可以看竞争对手的数据。。。我用 rpa 试过模拟人的操作去获取，效率低不说还经常会被封号。它们这种平台是如何做到不会被封号，还能实时更新最新数据，这是怎么做到的？

ZnductR0MjHvjRQ3

2024-03-05 10:24:58 +08:00

你难道就没想过有 openAPI 吗？

ZSeptember

2024-03-05 10:27:31 +08:00

应该是互相爬的吧。
前段时间还有新闻，京东的爬虫被 pdd 屏蔽了。https://36kr.com/p/2610860492414852

ZSeptember

2024-03-05 10:28:10 +08:00

爬虫是有技术的，淘宝的听说就挺难搞的。

yurman

2024-03-05 10:33:24 +08:00

@Motorola3 有猜过是走接口，老板不知道哪里看的别人说是用啥爬虫技术实现的，我觉得不可能有这样的能够大量爬取还能防封

yurman

2024-03-05 10:34:37 +08:00

@ZSeptember 淘宝是很麻烦，已经是低量数据爬取，完全模拟人为操作。偶尔还是能触发警告

BeiChuanAlex

2024-03-05 10:38:51 +08:00

很简单，买数据，给钱就能办到。你陷入到了技术的思维漩涡，线下花钱可以办到线上花大力气都办不到的事情。

yurman

2024-03-05 10:52:34 +08:00

@BeiChuanAlex 我是觉得是没有啥技术能做到，可惜我只是个打工仔，老板不信 :(

wanniwa

2024-03-05 10:59:27 +08:00

有的公司是专门成立爬虫组，立项去攻克研究的。投入成本就会有收获。一步步去拆解剖析

DT27

2024-03-05 11:03:00 +08:00

淘宝我真人去访问都费劲，动不动就弹验证，还经常验证失败。。。

yahooer

2024-03-05 11:08:25 +08:00

也有第三方接口供应商像淘宝的比如这个 www.idatariver.com/zh-cn/projects

lilei2023

2024-03-05 11:21:02 +08:00

淘宝这个真人访问，都经常弹，被人机器了，真恶心，

angryfish

2024-03-05 11:24:25 +08:00

商业级爬，是需要资源的。
你有多少个独立的 ip 地址？你有多少个用户号？
曾经在某旅游网站做个爬友商相关的项目，光买 ip 资源就用了三百万，还不包含自己机房的 ip
该花的钱还是得花。

corcre

2024-03-05 11:29:11 +08:00

淘宝的反爬做的挺好的(甚至能防正常用户), 目前说到低成本爬淘宝数据站立的老哥一个个都是摇头

Blanke

2024-03-05 12:51:00 +08:00

有商业的成熟方案，很多数据公司内部都是全网怕，tb jd pdd 这些都是基操了，只要花得起升本，肯定能搞定

Blanke

2024-03-05 12:51:41 +08:00

@Blanke 打错。有商业的成熟方案，很多数据公司内部都是全网爬，tb jd pdd 这些都是基操了，只要花得起成本，肯定能搞定

lizhenda

2024-03-05 14:26:37 +08:00

@angryfish 我觉得这 300w 大概率是被中间吃回扣吃掉了

sergio948

2024-03-05 14:33:01 +08:00

我最近看豆瓣的反爬也是挺 6 的，第一次遇到，看抓包情况好像是做了加密，反正没看懂

wanniwa

2024-03-05 15:18:51 +08:00

@sergio948 #18 豆瓣可是以前所有爬虫新手的最爱爬的网站了。估计被爬怕了

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1020678

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.