V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
nicoljiang
V2EX  ›  程序员

爬虫爬的太多了,大家一般怎么应对这个问题。

  •  
  •   nicoljiang ·
    PRO
    ·
    bitiful · Sep 21, 2018 · 5122 views
    This topic created in 2774 days ago, the information mentioned may be changed or developed.
    之前写过一个帖子,屏蔽大量价值不高的爬虫,就是因为无关爬虫爬的太多了。
    当时所有爬虫的请求加到一起大致 300 万,无关爬虫(非重要搜索引擎)就占了 240 万一天。

    屏蔽了之后效果很好~
    但现在。。。百度、yandex、bing、Google 加起来都快 200 万了。。。其中 Google 占 180 万(之前就 20 万一天)。

    想问大家有遇到过这个问题吗,如何应对~

    PS:关键的问题是,来自 Google 的流量虽然是主导,但远远没有这么大的比例,会感觉不太划算,但又不敢做策略。
    17 replies    2020-04-30 18:31:00 +08:00
    SukkaW
        1
    SukkaW  
       Sep 21, 2018 via Android   ❤️ 4
    应该是爬虫伪装成搜索引擎 UA 了。在服务端配个检查爬虫 IP 的 ASN 吧。
    nicoljiang
        2
    nicoljiang  
    OP
    PRO
       Sep 21, 2018
    @SukkaW 这是什么高难度操作啊。。。哭哭
    vtwoextb
        3
    vtwoextb  
       Sep 21, 2018
    ip 黑名单,其实就是攻与防,京东的防爬虫已经做的不错了,但是我写了一个更换 ip 的测试,依然防不住 https://github.com/hizdm/dynamic_ip
    nicoljiang
        4
    nicoljiang  
    OP
    PRO
       Sep 21, 2018
    @vtwoextb 其实相比被爬数据这个点,我目前更心疼服务器负载和流量。已经连续四天超量采集了,难受。
    SukkaW
        5
    SukkaW  
       Sep 21, 2018   ❤️ 4
    @nicoljiang 其实还可以检查 Google 爬虫 UA 到访 IP 的 rdns,真 GoogleBot 的 rdns 是会带 googlebot.com 的。
    leir
        6
    leir  
       Sep 21, 2018 via iPhone
    楼主网站啥类型?
    zarte
        7
    zarte  
       Sep 21, 2018
    什么站点呀?爬的频率这么高
    nicoljiang
        8
    nicoljiang  
    OP
    PRO
       Sep 21, 2018
    @SukkaW 哦哦 好像这是个好办法,我看看怎么试一下。
    nicoljiang
        9
    nicoljiang  
    OP
    PRO
       Sep 21, 2018
    @zarte
    @leir
    就普通的内容站,实际上之前并没有这么多,这几天翻了十倍,有点扛不住。
    t6attack
        10
    t6attack  
       Sep 21, 2018   ❤️ 1
    也不要乱封。javaeye ( iteye )曾被封锁过。原因是自己编写的反爬虫系统,把 ISP 内容监控的爬虫给封了。
    https://news.cnblogs.com/n/81922/

    这是其创始人之前的抱怨文章( 2007 年): http://robbin.iteye.com/blog/53075
    及分析文章( 2009 年): http://www.360doc.com/content/12/0102/17/1997902_176691774.shtml
    不知为什么,讲反爬虫的这两篇文章原文被删了。
    nicoljiang
        11
    nicoljiang  
    OP
    PRO
       Sep 21, 2018
    @t6attack 这个有点吓人啊。。。ISP 内容监控的爬虫???
    JungleHi
        12
    JungleHi  
       Sep 21, 2018
    Google 可以在 search console 里设置 限制每天抓取频率和数量
    另外建议看一下 URL 参数, 不相干的参数可以通过 robots.txt 屏蔽掉,以前遇到一个问题各种 filter 的参数互相叠加,几百万个 URL 组合,ROBOTS.TXT 没有禁止,服务器让 GOOGLE 爬虫搞得差点宕机了
    okjb
        13
    okjb  
       Sep 21, 2018 via Android
    啥网站啊,不会是草留根吧,龟龟
    nicoljiang
        14
    nicoljiang  
    OP
    PRO
       Sep 21, 2018
    @JungleHi 哦 还没弄过 search console,去研究研究
    nicoljiang
        15
    nicoljiang  
    OP
    PRO
       Sep 21, 2018
    @okjb 当然不是。。。。
    nicoljiang
        16
    nicoljiang  
    OP
    PRO
       Sep 21, 2018
    @JungleHi 但我的 url 其实很干净,只有 0-1 个参数。
    quyi679911
        17
    quyi679911  
       Apr 30, 2020
    nicoljiang 你能将多吉搜索市场化吗,我们 用搜索 不排斥广告,只是希望不误导 期待你的回复!
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1040 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 55ms · UTC 23:19 · PVG 07:19 · LAX 16:19 · JFK 19:19
    ♥ Do have faith in what you're doing.