为什么总有人扫我的网站,难道我动了谁的奶酪?

2020-05-19 10:50:04 +08:00
 tianshiyeben

在 nginx 日志里,经常有奇怪的 404,还有假蜘蛛。

烦。

5991 次点击
所在节点    程序员
33 条回复
heiheidewo
2020-05-19 15:28:35 +08:00
5M 的带宽,有 4.9M 都是被爬虫消耗了
aloxaf
2020-05-19 15:37:21 +08:00
瞅了一下我的一个人网站,明面上的爬虫流量大概有 50%,不过所有的异常流量加起来有 70% 了,看来达到了平均水准了 2333

@ajaxfunction 大公司的 bot 应该都遵守 robots 协议的吧,不想让它爬就禁止
JackYao
2020-05-19 16:42:27 +08:00
不用想了- - 大部分都是 ai 扫的
我自家 nas 架在了公网, 天天被人干。。
ajaxfunction
2020-05-19 18:02:10 +08:00
@aloxaf 其实早就设置了 所有爬虫禁止访问,
但实际上这种资源类网站 和瓜子优信车源类似, 盯着的人太多了,上到竞争对手,下到第三方卖行业软件的众多小公司都在互相采集,毕竟信息就是真金白银
inktiger
2020-05-19 18:08:10 +08:00
动奶酪你是网站都得崩咯,爬虫遍历互联网都是
superrichman
2020-05-19 18:16:44 +08:00
爬虫太正常了,不喜欢就配置一下全部拒绝掉
programmerM
2020-05-19 19:13:50 +08:00
我的个人博客每天 50% 以上的请求都是爬虫,其中 AhrefsBot 的请求最多。我的爬虫请求统计 https://www.misterma.com/data.html
Soar360
2020-05-19 22:49:40 +08:00
我的个人博客,连爬虫都不愿意光顾。
https://www.coderbusy.com/
bojue
2020-05-19 22:59:00 +08:00
@aloxaf bot 听说有人越界,不知道真假,国内环境没有相关的处罚
tianshiyeben
2020-05-19 23:13:48 +08:00
@superrichman 我不会配置,不管了
coderabbit
2020-05-20 08:24:59 +08:00
sunwq
2020-05-20 09:17:03 +08:00
挂点广告
tianshiyeben
2020-05-20 09:20:27 +08:00
@sunwq 不了。也没多少人访问。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/673151

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX