看看你的网站有哪些爬虫?有什么人访问你了?被哪些搜索引擎索引

2019-06-19 14:41:45 +08:00
 botsonar
接入站点: https://sdk.egoid.me/
站点自助接入,qq 交流群:727982278

等你来撩
3841 次点击
所在节点    程序员
30 条回复
googlefans
2019-06-19 14:57:04 +08:00
收费项目吗
RiESA
2019-06-19 15:05:32 +08:00
同问,是收费项目
RiESA
2019-06-19 15:05:44 +08:00
吗? 手滑按快了
botsonar
2019-06-19 15:07:36 +08:00
免费的
botsonar
2019-06-19 15:07:57 +08:00
wbrobot
2019-06-19 15:24:20 +08:00
js 不解析,可以统计爬虫??
botsonar
2019-06-19 15:35:26 +08:00
@wbrobot 这个方式只是大概分析,可以进群交流 网页回复不及时
Sornets
2019-06-19 16:18:35 +08:00
啥原理?
botsonar
2019-06-19 16:22:22 +08:00
@Sornets
有一部分 是 js 测试 有一部分 是服务端检测
botsonar
2019-06-19 17:28:21 +08:00
opengps
2019-06-19 18:06:50 +08:00
有那么几个奇葩爬虫就是不停的爬,甚至有集中爬取的情况。
刚才一下子发太多爬虫 UA 信息,结果因为 ua 包含大量 url 被屏蔽了一会才打开
贴个我自己的博客: https://www.opengps.cn/Blog/View.aspx?id=322
使用判断方法:使用“ Crawler ”作为关键字识别到的文明爬虫
uqf0663
2019-06-19 18:23:19 +08:00
确实是有反爬虫的需求,我的站点甚至加了一些验证手段,例如随机出现 qq 的 007 验证等,但是每天还是有大量爬虫(他们还是分布式的)来搞。以至于我只要重启 web 服务器后马上服务器的带宽就会被瞬间占满几分钟(估计是他们的失败重试机制不完善导致访问失败后大量重试的请求)着实很头疼
botsonar
2019-06-19 21:15:46 +08:00
@opengps 这个办法也不错,不过要是有人发现你这样做,你就防不住了
botsonar
2019-06-19 21:16:15 +08:00
@uqf0663 你是什么网站呀,什么业务
uqf0663
2019-06-19 21:40:08 +08:00
@botsonar 某个小众行业的数据查询的网站,数据都是我独家整理的,多年前我是这个小众行业第一个做的,在我没有做任何 SEO 手段没有任何外链的前提下搜索引擎搜这个行业名词我的站一直稳在第一位,以至于后来的模仿者全都是扒我的页面爬我的数据。他们要是友好一点我倒也懒得管他们,主要是他们搞得太狠,页面没有图片就三个简单页面,晚上高峰期都能经常占到 20M 的带宽,真实用户估计都用不到 2M 带宽。所以我有很迫切的需求怎么干掉这些家伙,一直没有找到合适的办法。看起来他们应该是用了类似 Puppeteer 之类的东西来爬,而且大规模的分布式机器,每个 IP 请求的量都跟正常用户差不多,真是不容易识别。
botsonar
2019-06-19 21:59:00 +08:00
@uqf0663 看起来你遇到了一些问题,如果可以的话,可以私下交流,我给你提供一点思路
opengps
2019-06-20 08:57:37 +08:00
@botsonar 我的博客板块专门写了几篇关于 UA 的,针对伪造 UA 防御难度很大,你可以参考下,从博客板块搜 UA 关键字能看到全部相关文章
botsonar
2019-06-20 09:49:32 +08:00
@opengps 好的
encro
2019-06-20 10:00:38 +08:00
1,前端 JS 渲染加 COOKIE 验证;
2,nginx 配置单 IP 访问频率;
3,各大搜索引擎 IP 是公开的,可以反向解析,将怀疑 IP 检查一遍,非几大搜索引擎的仿冒爬虫都 ban 掉。

做到以上几条基本可以清净了。

@uqf0663
uqf0663
2019-06-20 10:47:53 +08:00
@encro 注意看我 15 楼的描述,顺便了解下 Puppeteer 先(什么 JS 渲染 cookie 验证完全没有难度),对于我的情况,你说的这些全部没有用(你顺便了解下 qq 的 007 验证,这个他们都能轻松过)。而且现在各大运营商都在进行大内网 NAT 策略(也就是一个城市可能就几个 IP 出口),ban 掉各大 idc 的 ip 还可以,面对大规模家宽 ip 的分布式爬虫,你 ban IP 的同时也会 ban 掉该城市的正常的用户(因为他们的公网 IP 是同一个啊)。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/575474

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX