WuwuGin
V2EX  ›  互联网

煎蛋被爬虫爬炸了

  •  2
     
  •   WuwuGin · Oct 16, 2017 · 8666 views
    This topic created in 3153 days ago, the information mentioned may be changed or developed.
    昨晚到现在煎蛋后台大部分时间是瘫痪着的,因为有人在疯狂采集,连接数过多让煎蛋数据库频繁挂掉。点不了 OOXX 发不出评论 /吐槽的同学不要猜测,原因就是这个。

    至于为什么被频繁采集,这要归功于某些拿煎蛋练手还去 github 开源采集煎蛋程序的牛逼程序员们。



    原本我们是可以从服务器端屏蔽掉恶意采集,但服务器扛不住 DDOS,不得不全站 cdn,但 cdn 又等于是把静态内容贡献给恶意采集者。

    COLT 正努力从技术层面解决。请耐心等候。


    以上来自煎蛋站长 sein。
    30 replies    2017-12-13 13:24:50 +08:00
    iShawnWang
        1
    iShawnWang  
       Oct 16, 2017 via iPhone
    这.....
    laogui
        2
    laogui  
       Oct 16, 2017 via Android
    采集不是用同一个 IP 吗?这都防不了?难道换着 IP 采集?
    Mikewu
        3
    Mikewu  
       Oct 16, 2017
    @laogui 看正文,估计是成为开源爬虫项目中的 Demo 了。
    lwbjing
        4
    lwbjing  
       Oct 16, 2017
    @laogui 文中有提到“开源采集煎蛋程序”,想像一下场景...
    jas0ndyq
        5
    jas0ndyq  
       Oct 16, 2017 via iPhone
    快了?
    takanasi
        6
    takanasi  
       Oct 16, 2017 via Android   ❤️ 1
    所以不爱写爬虫,感觉比较缺德
    zts1993
        7
    zts1993  
       Oct 16, 2017
    写个爬虫练个手,你看知乎现在登陆都要验证码了。
    oh
        8
    oh  
       Oct 16, 2017 via iPhone
    @laogui 多 IP 多线程 甚至分布式采集 不都是必备的么…
    coderluan
        9
    coderluan  
       Oct 16, 2017   ❤️ 1
    写爬虫从来只用单线程龟速爬,否则感觉自己在干缺德的事。
    yu099
        10
    yu099  
       Oct 16, 2017 via Android
    果然,我说图怎么刷不出来
    doublleft
        11
    doublleft  
       Oct 16, 2017
    猜测一下,因为我也采过,一般都是爬妹子图吧。。 既然妹子图链到的是微博图床,能不能直接开个 api
    swulling
        12
    swulling  
       Oct 16, 2017
    技术不行罢了
    deeporist
        13
    deeporist  
       Oct 16, 2017
    加油
    EricCartman
        14
    EricCartman  
       Oct 16, 2017   ❤️ 1
    重定向爬虫到开源操作系统镜像文件
    yu099
        15
    yu099  
       Oct 16, 2017 via Android
    @EricCartman 这个不错
    Sapp
        16
    Sapp  
       Oct 16, 2017
    最近知乎的爬虫教程都烂大街了,真搞不懂弄那么多爬虫是搞毛?就图个好玩?
    gamexg
        17
    gamexg  
       Oct 16, 2017   ❤️ 1
    @oh #8

    如果确认是开源爬虫问题,那么很好搞定啊。
    直接照着爬虫规则改,让爬虫无法匹配即可。

    另外虽然多 ip 分布式是爬虫常见功能,但是个人学习的话 ip 来源不会有那么多,高频率 ip 封禁或者加 js 验证、验证码验证都能够解决。
    lingo
        18
    lingo  
       Oct 16, 2017
    @swulling 个人感觉不能单纯用技术不行来说。本来以他们技术可以维持网站的的正常访问,结果这个开源项目带来大量的异常流量导致网站挂了,总不能要求每个公司都跟 BAT 一样吧。
    iFlicker
        19
    iFlicker  
       Oct 16, 2017   ❤️ 1
    老大加油, 可怜的 COLT。。。估计 colt 系列无聊图又要出了
    WordTian
        20
    WordTian  
       Oct 16, 2017 via Android
    我说怎么最近评论的时候总出问题呢
    mohoumk2
        21
    mohoumk2  
       Oct 16, 2017   ❤️ 11


    发现回复下面有个有趣的评论
    ccc008
        22
    ccc008  
       Oct 16, 2017
    爬蚱好吃
    congeec
        23
    congeec  
       Oct 16, 2017 via iPhone
    缺德
    jy02201949
        24
    jy02201949  
       Oct 16, 2017 via Android
    访问到这个量级的站也不好好考虑自身条件是否符合发展需要,当年被告也是这样不知所措
    Lentin
        25
    Lentin  
       Oct 16, 2017
    搞个 api 不就好了,还采集啥(雾
    fuxkcsdn
        26
    fuxkcsdn  
       Oct 16, 2017   ❤️ 2
    @mohoumk2 正解!上次在 V 站上看到有人“又”(为什么说又呢?你们懂的)在发布所谓牛逼的煎蛋爬虫,at 了站长也没做处理
    这边不让讨论盗版,却可以光明正大的分享偷(别说爬虫不算偷)别人数据的项目...
    zander1024
        27
    zander1024  
       Oct 30, 2017
    wbt
        28
    wbt  
       Oct 30, 2017
    。。。
    tuding
        29
    tuding  
       Oct 30, 2017
    @coderluan +1
    我也是单线程爬, 而且挂服务器上, 避开高峰时间
    Jayce245
        30
    Jayce245  
       Dec 13, 2017
    你要是说练个手爬几张图片看看是不是正确也就算了,无限制爬取的确挺缺德的
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4311 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 146ms · UTC 01:00 · PVG 09:00 · LAX 18:00 · JFK 21:00
    ♥ Do have faith in what you're doing.