V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
xiaomimix5
V2EX  ›  程序员

今日头条字节跳动的蜘蛛爬虫 Bytespider(流氓至极),如何屏蔽

  •  
  •   xiaomimix5 · Oct 22, 2019 · 4777 views
    This topic created in 2379 days ago, the information mentioned may be changed or developed.

    Bytespider 得知来自于头条系。一搜索发现众多小站中招。

    几宗罪:

    • 大并发集中式访问,攻击式地采集数据 Bytespider 爬虫虽然不比 Doos,cc,可是对于 web 服务来讲多大的服务(相对来讲)都能拖垮。 占满 CPU 带宽等资源。
    • 这家伙不受 robots 规则限制

    useragent 为 Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.4988.1224 Mobile Safari/537.36; Bytespider,


    我的服务器是 win server 2016,,,IIS 8.0 因业务特殊,没有用 Nginx。。

    搜索到的解决方案是: 封禁 user-agent ? 屏蔽 IP 段?

    请教如何在 IIS 中进行相应的设置进行封禁此恶意的抓取?

    附图(转载至他站,IIS 日志中类似于此) iis 日志

    Supplement 1  ·  Oct 26, 2019
    有出新报道了,防头条蜘蛛,胜于防川。
    https://mp.weixin.qq.com/s/X-H3kf_S1D-UUfjjX5F1eg
    24 replies    2019-10-25 02:56:34 +08:00
    haoji
        1
    haoji  
       Oct 22, 2019 via iPhone
    别说之前没想过,好像他家的爬虫真的挺占资源的…
    xiaomimix5
        2
    xiaomimix5  
    OP
       Oct 22, 2019
    @haoji 关键是不遵守 robots.txt 的 disallow 规则
    wangyzj
        3
    wangyzj  
       Oct 22, 2019
    好歹人家是爬虫起家的
    mamahaha
        4
    mamahaha  
       Oct 22, 2019
    不是靠内含段子起家的吗?
    uyhyygyug1234
        5
    uyhyygyug1234  
       Oct 22, 2019   ❤️ 10
    如果是 Bytespider 的 ua,返回一点违禁词。。。
    TheWalkingDead
        6
    TheWalkingDead  
       Oct 22, 2019   ❤️ 1
    花钱找人 DDOS 你们,让他们爬虫进不来。
    ddup
        7
    ddup  
       Oct 22, 2019 via Android
    举报他们非法爬取数据
    nevin47
        8
    nevin47  
       Oct 22, 2019 via Android
    不遵守 robots 一举报一个准啊
    jeeyong
        9
    jeeyong  
       Oct 22, 2019   ❤️ 2
    报警吧..前段时间刚抓一家公司...
    一样的事情...
    alocne
        10
    alocne  
       Oct 22, 2019   ❤️ 1
    防火墙屏蔽
    110.249.202.0/24
    110.249.201.0/24
    111.225.149.0/24
    111.225.148.0/24
    ClericPy
        11
    ClericPy  
       Oct 22, 2019
    @uyhyygyug1234 反爬听说过蜜罐藏毒的, 第一次见把自己毒死来灭蚊子的...
    em70
        12
    em70  
       Oct 22, 2019
    @mamahaha 内涵段子里的内容难道是自己写的吗
    misaka19000
        13
    misaka19000  
       Oct 22, 2019
    报警
    nyaapass
        14
    nyaapass  
       Oct 22, 2019
    报警 + 1
    leonard916
        15
    leonard916  
       Oct 22, 2019
    可以告他们 好多程序员都因此收到过传票
    jinliming2
        16
    jinliming2  
       Oct 22, 2019 via iPhone
    丢个 gzip 炸弹过去
    dioxide
        17
    dioxide  
       Oct 23, 2019
    之前 v2 一帖子说: 某人使用爬头条的内容被头条立案起诉了... 说它是爬虫起家的真不为过.
    xiaoz
        18
    xiaoz  
       Oct 23, 2019
    @uyhyygyug1234 奇淫技巧
    zbl430
        19
    zbl430  
       Oct 23, 2019
    收集证据,律师函 ->起诉

    最恨的手段识别这些 ip,返回错误数据(和真的一样)
    zsj950618
        20
    zsj950618  
       Oct 23, 2019 via Android
    salsa.debian.org 是把屏蔽了它的 ip

    110.249.200.0/22, 111.225.148.0/23

    反正丢人已经丢到国外了。
    humor66
        21
    humor66  
       Oct 23, 2019
    不赶紧爬,怎么做搜索?
    cnrting
        22
    cnrting  
       Oct 23, 2019 via iPhone
    屏蔽 ip 最简单有效
    unclemcz
        23
    unclemcz  
       Oct 23, 2019
    直接封 IP 吧,我对 Bytespider 的操作是这么处理的,很简单很暴力,只要特定页面记录访客浏览记录( ua、ip ),程序定期检索访客的 ua,检索到关键字后,将对应的 ip 加到屏蔽列表。
    skenan
        24
    skenan  
       Oct 25, 2019
    自己用的..
    ```
    if ($http_user_agent ~* (bytespider|scrapy)) {
    return 444;
    }
    ```
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1368 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 82ms · UTC 23:50 · PVG 07:50 · LAX 16:50 · JFK 19:50
    ♥ Do have faith in what you're doing.