今天偶然发现 nginx 日志里,未公开的路径被陌生 ip 访问,且 ip 来源都是腾讯云的线路。猜测是 wechat 的爬虫?
复现:构建一个不存在的路径,https://example.com/sb-tencent 通过 wechat 直接访问或扫码访问
127.0.0.1 - - [28/Aug/2023:18:18:28 +0800] " GET /sb-tencent HTTP/2.0 " 404 0 "-" " Mozilla/5.0 (iPhone; CPU iPhone OS 16_6 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/15E148 MicroMessenger/8.0.40(0x18002830) NetType/WIFI Language/en "
过一会儿后,就能看到陌生 ip 的访问
180.163.28.180 - - [28/Aug/2023:18:17:46 +0800] " GET /sb-tencent HTTP/1.1 " 404 0 "-" " Mozilla/5.0 (Linux; Android 4.4.4; HUAWEI ALE-CL00 Build/HuaweiALE-CL00; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/53.0.2785.49 Mobile MQQBrowser/6.2 TBS/043024 Safari/537.36 MicroMessenger/6.5.4.1000 NetType/4G Language/zh_CN "
wechat 的爬虫会伪造 UA ,目前发现的有 Huawei 、Windows NT 、oppo 、vivo 、iPhone 等,且 UA 不一定包含 MicroMessenger ,例如Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36
爬虫的 ip 段目前发现的有 106.55.0.0/16, 81.71.0.0/16, 180.163.0.0/16 ,24 小时工作,有的时候甚至会在次日凌晨去爬。 不知道 tx 搞这出是要干嘛,伪造 UA 去爬虫已经是属于恶意的吧
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.