从这个文件中能分析出什么,比如 BA,比如 V2EX ?

2015-05-18 18:10:25 +08:00
 exuxu

https://www.baidu.com/robots.txt
https://www.v2ex.com/robots.txt
http://www.taobao.com/robots.txt

"User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /"是指不让百度给爬吗?

这样子指定 User-agent ,这么多爬虫?
User-agent: Baiduspider-image
User-agent: Googlebot
User-agent: YoudaoBot
User-agent: Sogou web spider
User-agent: Sogou inst spider
User-agent: Sogou spider2
User-agent: ChinasoSpider

update

补上相关链接 从robots.txt能看出什么?

v2 的没列~~

1733 次点击
所在节点    分享发现
9 条回复
exuxu
2015-05-18 18:22:14 +08:00
附上一个问题,新闻网址的源都是一个地方发了,然后其它网站都是从这个地方抓过来的么....
wy315700
2015-05-18 18:26:19 +08:00
08年淘宝就不允许百度去抓取了
ryd994
2015-05-18 21:11:05 +08:00
@exuxu 人民 新华 环球
fengyqf
2015-05-18 23:04:34 +08:00
看看有没有哪个二货,把网站管理后台地址放到robotx.txt里,然后你就有地方玩爆破了
exuxu
2015-05-19 00:00:39 +08:00
@ryd994 gov的媒体额

@fengyqf 嗯,我发的那个链接里面有提到这个
decken
2015-05-19 00:17:26 +08:00
@fengyqf WordPress默认不就是这样吗?
ryd994
2015-05-19 00:42:43 +08:00
@exuxu 其他地方发的不叫新闻叫谣言
exuxu
2015-05-19 08:45:34 +08:00
@ryd994  TAT
fengyqf
2015-05-19 23:53:48 +08:00
@decken 这种开源的软件可以不算在内,默认的地址懂的人都知道

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/191988

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX