我的博客用的 Nginx 做服务器,我用 Python 写了个日志过滤器,目的是把所有搜索引擎、网络爬虫等流量过滤掉,只展现普通用户的访问。Nginx 的日志记录主要分为如下几种:
上面这几种可以从 User-Agent 分辨出来。但有些 IP,我在 ipip.net 上查询,发现指向一些机房,并说明是机器人,像这种该怎么过滤出来呢?
大家有什么思路,欢迎分享。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.