百度总是这么不要脸吗?

2015-07-06 11:08:01 +08:00
 undeflife

robots.txt里限制了爬虫的时间段和频次,百度不管不顾

sudo cat access.log |grep 'http://www.baidu.com/search/spider.html' | awk '{print $1}' | awk -F'.' '{print $1"."$2"."$3"."$4}'

一早上 5个ip段 300多ip死劲爬啊 - -

123.125.71.0
220.181.108.0
180.76.15.0
220.181.38.0
183.60.243.0

列举部分IP

220.181.108.103
220.181.108.107
220.181.108.97
220.181.108.85
220.181.108.120
220.181.108.102
220.181.108.87
220.181.108.83
220.181.108.77
220.181.108.93
220.181.108.109
220.181.108.90
220.181.108.119
220.181.108.81
220.181.108.104
220.181.108.91
220.181.108.114
220.181.108.99
220.181.108.108
220.181.108.92
220.181.108.101
123.125.71.91
123.125.71.81
123.125.71.110
123.125.71.115
123.125.71.107
123.125.71.108
123.125.71.96
123.125.71.80
123.125.71.94
123.125.71.89
123.125.71.95
123.125.71.98
123.125.71.111
123.125.71.101
123.125.71.88
123.125.71.103
123.125.71.97
123.125.71.113
180.76.15.149
180.76.15.137
180.76.15.159
180.76.15.140
180.76.15.150
180.76.15.136
180.76.15.155
180.76.15.152
180.76.15.160
180.76.15.163
180.76.15.157
180.76.15.158
180.76.15.134
180.76.15.161
180.76.15.151
180.76.15.142
180.76.15.145

3584 次点击
所在节点    问与答
26 条回复
liujiantao
2015-07-06 15:36:34 +08:00
百度站长工具可以自定义的吧好像
mornlight
2015-07-06 15:58:44 +08:00
搜索引擎更新网站的robots.txt 需要一段时间,不是立即生效的。
mliilm
2015-07-06 19:35:12 +08:00
@undeflife 百度技术不行呗,Google的爬虫比百度的智能了不止一个数量级
wtdd
2015-07-06 20:03:50 +08:00
话说认识两个哥们儿去了百度数年后,人品从中等水平逐渐进入不厚道水平了,技术进步相对不大,嘴上忽悠水平明显见涨
cxshun
2015-07-06 20:07:56 +08:00
@wtdd 这简直牛叉,看来百毒为我们中华民族的教育事业做出了自己应有的『贡献』,真感谢他们祖宗十八代。
laiyingdong
2015-07-07 04:06:53 +08:00
百度懒得管这么长的玩意 除非你是淘宝

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/203602

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX