V2EX 为什么允许搜索引擎访问 /member

2017-12-26 11:06:15 +08:00
 SonicY
再或者说 V2EX 如何对抗类似此类爬虫的网站?
https://www.v9kk.com/v2ex/user/site?sort=-user_id
4315 次点击
所在节点    反馈
7 条回复
wxsm
2017-12-26 13:08:14 +08:00
说得好像你有什么办法能够“不允许”一样。
SonicY
2017-12-26 14:50:51 +08:00
@wxsm 感觉现在百度也没有太恶劣的违反 robots.txt 的行为吧
wxsm
2017-12-26 16:12:20 +08:00
@SonicY 所以你贴的这个页面,是 Google 帮他爬的,还是百度帮他爬的呢?
SonicY
2017-12-26 17:01:11 +08:00
@wxsm 这好像是两个问题吧
zpf124
2017-12-26 17:16:53 +08:00
@SonicY 那个哥们说的是一个问题,爬虫可以伪装成普通用户,我也可以写爬虫,你也可以写爬虫;
而你说的对抗爬虫和阻止搜索引起反倒是两个问题。

robots.txt 仅仅是个公告声明而已, 我餐馆门口立个牌子,华人与狗不得入内,你直接强行闯或者你说你是日本人我管不住啊。

所以 你的标题是错的,v2 是不允许搜索引擎爬去部分内容的。

内容里问的 v2 对抗爬虫 这就是另一个问题了,我不是 v2 的也不知道他们的策略,但不论啥网站有人有心爬你怎么也防不住。



回到一开始 你看到的那个网站应该就是站长自己的爬虫程序爬的,就是属于强闯的这种,谁管你公告写的写啥啊。
SonicY
2017-12-26 17:56:17 +08:00
@zpf124 这本来就是两个问题啊。。。
zpf124
2017-12-26 20:16:35 +08:00
@SonicY 那问题的答案显而易见了,我也都回答了.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/417655

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX