百度总是这么不要脸吗?

2015-07-06 11:08:01 +08:00
 undeflife

robots.txt里限制了爬虫的时间段和频次,百度不管不顾

sudo cat access.log |grep 'http://www.baidu.com/search/spider.html' | awk '{print $1}' | awk -F'.' '{print $1"."$2"."$3"."$4}'

一早上 5个ip段 300多ip死劲爬啊 - -

123.125.71.0
220.181.108.0
180.76.15.0
220.181.38.0
183.60.243.0

列举部分IP

220.181.108.103
220.181.108.107
220.181.108.97
220.181.108.85
220.181.108.120
220.181.108.102
220.181.108.87
220.181.108.83
220.181.108.77
220.181.108.93
220.181.108.109
220.181.108.90
220.181.108.119
220.181.108.81
220.181.108.104
220.181.108.91
220.181.108.114
220.181.108.99
220.181.108.108
220.181.108.92
220.181.108.101
123.125.71.91
123.125.71.81
123.125.71.110
123.125.71.115
123.125.71.107
123.125.71.108
123.125.71.96
123.125.71.80
123.125.71.94
123.125.71.89
123.125.71.95
123.125.71.98
123.125.71.111
123.125.71.101
123.125.71.88
123.125.71.103
123.125.71.97
123.125.71.113
180.76.15.149
180.76.15.137
180.76.15.159
180.76.15.140
180.76.15.150
180.76.15.136
180.76.15.155
180.76.15.152
180.76.15.160
180.76.15.163
180.76.15.157
180.76.15.158
180.76.15.134
180.76.15.161
180.76.15.151
180.76.15.142
180.76.15.145

3644 次点击
所在节点    问与答
26 条回复
tabris17
2015-07-06 11:11:21 +08:00
robots.txt是西方的价值观,不符合中国国情(虽然百度自己也写了一个 http://www.baidu.com/robots.txt)

试试看站长工具呗
9hills
2015-07-06 11:11:39 +08:00
User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /
laoertongzhi
2015-07-06 11:18:15 +08:00
百度有脸吗?

我怎么不晓得
lonelygo
2015-07-06 11:29:19 +08:00
脸是什么?baidu问你呢
zent00
2015-07-06 11:33:27 +08:00
有些事大家知道就好,不用讲出来,楼上几位这么说百度,小心有洗地的人来骂你们是喷子。
yakczh
2015-07-06 11:40:49 +08:00
A 用户做个A网站
莆田民营医院花100块钱买了A的关键字,用户在百毒搜A,搜出来一大堆狗皮膏药的广告
A 用户觉得这好象有点不大对劲,问百毒这到底咋回事
百毒说这是我的盈利模式,你花200块钱把关键字买回去就搜索结果就导向你的网站了 莆田医院再花300买回去,你再花400买回来,这就是传说中的市场经济啊,我等着数钱啊
你问百毒,你要脸吗?
百毒:我要钱啊,给钱啊,我已经叉开双腿了,给钱来上我啊,come'on baby
laucie
2015-07-06 11:43:49 +08:00
@yakczh 生动啊 有图就更好了
yakczh
2015-07-06 11:44:20 +08:00
象google这种笨蛋就不会搞市场经济赚钱
vbs
2015-07-06 11:48:30 +08:00
楼主能贴下robots.txt吗
undeflife
2015-07-06 11:58:19 +08:00
@tabris17 我知道百度站长上可以设频次,但是我没试过,不太乐意为了这个去注册账号什么的,问题是不管怎么样,300多ip同时来这像话吗?
Hello1995
2015-07-06 12:25:19 +08:00
楼主可以尝试把 UA 里带有 "baidu" 字样的全给屏蔽了。
df4VW
2015-07-06 12:31:57 +08:00
mliilm
2015-07-06 12:51:03 +08:00
robots.txt 里设置的爬虫的时间段和频次百度应该是不认的.
但是 disallow 百度是严格遵守的. 可以把你觉得不重要的给 disallow 掉.

300多个 IP 同时来算什么, 几千个几万个的都有. 尤其最近百度升级了 spider, 开始支持 JS 了, 有时候触发的 JS 有问题的话, 同时并发的可就更多了. 百度暂时根本控制不住这些.

最好的办法就是站长工具里控制下频率. 或者干脆 disallow 掉.
如果还是不行的话, 那就升级服务器吧.
cst4you
2015-07-06 12:59:04 +08:00
nginx 里禁止 Baiduspider 即可, 你可以302回baidu.com, 百度判断你作弊, 立即拔你毛, 这样永远就不会受它骚扰了
suikator
2015-07-06 13:02:49 +08:00
@cst4you 不要这么机制
undeflife
2015-07-06 13:05:44 +08:00
@mliilm 是我少见多怪了啊?那请问下是出于什么样目的会几千个几万ip同时爬呢?google遵守了我们robots.txt设置的爬虫的时间段和频次,每次也就几个ip而已,收录的网页数却比百度要多了一倍.
cst4you
2015-07-06 13:31:33 +08:00
@suikator 谢谢你
iyaozhen
2015-07-06 13:41:38 +08:00
百度应该是不支持时间段和频次的。
lyragosa
2015-07-06 13:44:49 +08:00
ban掉即可。
predator
2015-07-06 15:31:18 +08:00
不知道得罪了谁,一个月给我刷了4000万外链
然后才发现……正常内容百度不上心的,垃圾外链爬得可起劲了,最高峰的时候网站流量70%+是被百度消耗掉了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/203602

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX