爬虫爬的太多了,大家一般怎么应对这个问题。

2018-09-21 13:38:40 +08:00
 nicoljiang
之前写过一个帖子,屏蔽大量价值不高的爬虫,就是因为无关爬虫爬的太多了。
当时所有爬虫的请求加到一起大致 300 万,无关爬虫(非重要搜索引擎)就占了 240 万一天。

屏蔽了之后效果很好~
但现在。。。百度、yandex、bing、Google 加起来都快 200 万了。。。其中 Google 占 180 万(之前就 20 万一天)。

想问大家有遇到过这个问题吗,如何应对~

PS:关键的问题是,来自 Google 的流量虽然是主导,但远远没有这么大的比例,会感觉不太划算,但又不敢做策略。
4723 次点击
所在节点    程序员
17 条回复
SukkaW
2018-09-21 13:44:26 +08:00
应该是爬虫伪装成搜索引擎 UA 了。在服务端配个检查爬虫 IP 的 ASN 吧。
nicoljiang
2018-09-21 14:00:15 +08:00
@SukkaW 这是什么高难度操作啊。。。哭哭
vtwoextb
2018-09-21 14:03:20 +08:00
ip 黑名单,其实就是攻与防,京东的防爬虫已经做的不错了,但是我写了一个更换 ip 的测试,依然防不住 https://github.com/hizdm/dynamic_ip
nicoljiang
2018-09-21 15:15:20 +08:00
@vtwoextb 其实相比被爬数据这个点,我目前更心疼服务器负载和流量。已经连续四天超量采集了,难受。
SukkaW
2018-09-21 15:21:32 +08:00
@nicoljiang 其实还可以检查 Google 爬虫 UA 到访 IP 的 rdns,真 GoogleBot 的 rdns 是会带 googlebot.com 的。
leir
2018-09-21 15:24:04 +08:00
楼主网站啥类型?
zarte
2018-09-21 15:26:05 +08:00
什么站点呀?爬的频率这么高
nicoljiang
2018-09-21 15:40:36 +08:00
@SukkaW 哦哦 好像这是个好办法,我看看怎么试一下。
nicoljiang
2018-09-21 15:41:18 +08:00
@zarte
@leir
就普通的内容站,实际上之前并没有这么多,这几天翻了十倍,有点扛不住。
t6attack
2018-09-21 15:55:10 +08:00
也不要乱封。javaeye ( iteye )曾被封锁过。原因是自己编写的反爬虫系统,把 ISP 内容监控的爬虫给封了。
https://news.cnblogs.com/n/81922/

这是其创始人之前的抱怨文章( 2007 年): http://robbin.iteye.com/blog/53075
及分析文章( 2009 年): http://www.360doc.com/content/12/0102/17/1997902_176691774.shtml
不知为什么,讲反爬虫的这两篇文章原文被删了。
nicoljiang
2018-09-21 16:45:36 +08:00
@t6attack 这个有点吓人啊。。。ISP 内容监控的爬虫???
JungleHi
2018-09-21 16:52:30 +08:00
Google 可以在 search console 里设置 限制每天抓取频率和数量
另外建议看一下 URL 参数, 不相干的参数可以通过 robots.txt 屏蔽掉,以前遇到一个问题各种 filter 的参数互相叠加,几百万个 URL 组合,ROBOTS.TXT 没有禁止,服务器让 GOOGLE 爬虫搞得差点宕机了
okjb
2018-09-21 16:56:26 +08:00
啥网站啊,不会是草留根吧,龟龟
nicoljiang
2018-09-21 17:24:12 +08:00
@JungleHi 哦 还没弄过 search console,去研究研究
nicoljiang
2018-09-21 17:24:27 +08:00
@okjb 当然不是。。。。
nicoljiang
2018-09-21 17:25:07 +08:00
@JungleHi 但我的 url 其实很干净,只有 0-1 个参数。
quyi679911
2020-04-30 18:31:00 +08:00
nicoljiang 你能将多吉搜索市场化吗,我们 用搜索 不排斥广告,只是希望不误导 期待你的回复!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/491510

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX