京东没有 robots.txt 是怎样防止爬虫抓取的

2021-12-02 17:19:45 +08:00
 3kkkk

试了下京东 www.jd.com/robots.txt 跳首页了。这中间是有什么故事让其它搜索引擎没有抓取他家数据。

6627 次点击
所在节点    程序员
25 条回复
Jooooooooo
2021-12-02 17:24:16 +08:00
这...爬虫真想爬你还用 robots 拦吗.

都是有个专门的反爬团队做反爬相关的东西

而且搜索引擎明明收录了京东, 随便一搜就能搜到, 比如 java site:jd.com
Xusually
2021-12-02 17:25:56 +08:00
确实很奇怪,之前是有的。
cairnechen
2021-12-02 17:30:21 +08:00
User-agent: *
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*
User-agent: EtaoSpider
Disallow: /
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /

去年 11 月 10 号因为未知原因下线了
muzuiget
2021-12-02 17:32:06 +08:00
robots.txt 只是君子协定。
ytll21
2021-12-02 17:37:37 +08:00
京东其实没有动力做反爬,因为它主要以自营为主,所以和亚马逊类似逻辑,成交越多越好。淘宝的逻辑会有点不一样,因为淘宝盈利点在于店铺流量,所以让搜索引擎把流量吸走的做法是不符合它自身利益的。
ytll21
2021-12-02 17:39:23 +08:00
恩,这只是我的一点不成熟的想法,欢迎指正 dodge
k9982874
2021-12-02 17:41:00 +08:00
放 robots.txt 对国内搜索引擎反而是一份 sitemap
liuzhaowei55
2021-12-02 18:10:49 +08:00
各家爬虫会使用特别的 ua ,针对 ua 做了处理吧
locoz
2021-12-02 18:24:18 +08:00
有没有 robots.txt 都不影响被爬和反爬,robots.txt 只是君子协定而已。
vanton
2021-12-02 18:28:25 +08:00
@ytll21 #5

没错,淘宝现在是广告平台
gam2046
2021-12-02 19:19:48 +08:00
赞同#5 说法,以自营为主的情况下,其实京东相比之下,并不关心流量来源,重要的是有流量,其次是有成交。所以应该是巴不得四面八方的人给京东做引流,反正是从 A 搜索来成交,还是从 B 搜索来成交,都是自营,没差别。

至于京东的第三方商家,京东自己都不太管他们死活。

而淘宝需要自己掌握流量的核心诉求是,淘宝自己要卖流量给第三方商家,如果大量站外流量,会导致淘宝自己无法卖流量。
karloku
2021-12-02 19:41:12 +08:00
爬虫和搜索引擎分开说

我是搜索引擎我也不给自营的电商网站做索引啊, 这都是卖钱的广告流量我主动送给他干什么嘛.
wqhui
2021-12-02 20:06:12 +08:00
robots 只是说你不想被爬,别人爬不爬还是看别人意愿。。。
pengtdyd
2021-12-02 20:54:07 +08:00
我记得之前有个 JD 的人写了一本书 叫亿级流量。。。里面写了一段关于京东爬虫的内容,去看看吧。
12101111
2021-12-02 23:27:26 +08:00
Google 5900x site: jd.com
第一条 https://item.jd.com/100016046842.html
第二条 https://item.jd.com/10031652556617.html
显然是允许被爬的
swulling
2021-12-03 00:36:21 +08:00
京东希望你来爬,但是不希望你爬价格做比价。所以京东反扒策略一般都做在价格显示上。

淘宝就根本不希望你来爬,所以淘宝把反扒策略做到页面上。
mineralsalt
2021-12-03 00:56:47 +08:00
robots: "不要 不要 不要"
爬虫: "叫吧, 你越叫我越兴奋"
wzw
2021-12-03 07:17:08 +08:00
@ytll21 亚马逊,好像就没有反爬
mostkia
2021-12-03 09:08:08 +08:00
这玩意儿防君子不防小人,真的要做反爬,还得上非人类识别技术,某宝上偶尔客户端刷的快了,都会出现滑动条识别是不是爬虫。
realskywalker
2021-12-03 09:53:44 +08:00
你让我不爬我就不爬?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/819594

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX