V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
herozzm
V2EX  ›  问与答

好不容易做了网站有点流量,天天第三方爬虫来搞要放弃了

  •  
  •   herozzm · 2021-06-30 22:44:59 +08:00 · 1770 次点击
    这是一个创建于 1234 天前的主题,其中的信息可能已经有所发展或是发生改变。

    开了 cdn 每天开销不小,怎么办呢?逼我开验证码,看了一下对方是有大量 ip 池

    第 1 条附言  ·  2021-07-01 18:56:42 +08:00
    我把 ip 过滤了出来,排序了一下,是这样的,都是无来路 refrer,直接访问,然后 user-agent 都一样(目前是看到是一样的,后期估计会变化)
    106.226.229.102
    106.226.230.248
    106.226.239.104
    106.226.50.28
    106.7.73.230
    110.187.227.191
    110.187.227.37
    110.191.247.144
    110.191.248.120
    110.191.248.3
    110.249.208.138
    111.72.230.156
    111.72.244.158
    111.74.71.238
    111.74.78.163
    111.74.88.18
    111.74.88.69
    113.120.33.129
    113.120.37.88
    113.120.62.89
    113.121.38.52
    113.124.85.143
    113.128.35.180
    113.206.12.248
    113.206.18.147
    113.206.19.44
    113.206.201.94
    113.206.206.237
    113.206.211.195
    113.206.241.231
    113.206.244.152
    113.206.246.55
    113.218.234.126
    113.218.234.68
    113.218.235.198
    114.106.151.192
    114.226.35.106
    114.226.89.195
    114.227.111.213
    114.227.111.253
    114.99.10.231
    114.99.109.158
    114.99.109.82
    114.99.115.7
    114.99.116.178
    114.99.117.105
    114.99.12.154
    114.99.12.75
    114.99.13.234
    114.99.20.70
    114.99.22.250
    114.99.23.158
    114.99.8.46
    114.99.9.247
    115.152.209.90
    115.153.10.14
    115.153.12.36
    115.153.14.50
    115.153.15.116
    115.224.20.139
    115.224.52.68
    115.229.15.74
    117.57.22.233
    117.63.228.123
    117.64.234.254
    117.68.194.100
    117.68.194.198
    117.68.195.167
    117.70.39.174
    117.80.58.125
    118.114.250.98
    121.239.48.40
    121.29.46.139
    122.4.43.196
    122.4.52.53
    123.169.35.172
    125.112.205.77
    125.86.176.187
    125.86.176.205
    125.86.179.186
    125.86.179.214
    125.86.182.51
    125.86.185.116
    125.86.186.130
    125.86.186.46
    125.86.187.128
    125.86.190.188
    11 条回复    2021-07-01 18:57:20 +08:00
    NPC666
        1
    NPC666  
       2021-06-30 22:58:52 +08:00 via Android
    谷歌人机验证?
    falcon05
        2
    falcon05  
       2021-06-30 23:09:19 +08:00 via iPhone
    这爬虫有什么特征吗?
    herozzm
        3
    herozzm  
    OP
       2021-07-01 00:00:35 +08:00
    @falcon05 有 就是没有来源,直接访问,频率很高,但是 ip 不同
    johnsona
        4
    johnsona  
       2021-07-01 06:23:59 +08:00 via iPhone
    查询 ip 是否属于云服务商 是的话直接 ban 掉

    不行就 wx 扫码登陆
    levelworm
        5
    levelworm  
       2021-07-01 07:21:05 +08:00
    @herozzm 难道每次都不一样的 ip 吗?同一个 ip 会短时间内连续访问几次?好奇。
    hq136234303
        6
    hq136234303  
       2021-07-01 09:55:40 +08:00
    只能找特征了 ip 池也不可能无限的吧。
    40EaE5uJO3Xt1VVa
        7
    40EaE5uJO3Xt1VVa  
       2021-07-01 10:32:59 +08:00
    cdn 开销还好吧.www.injdk.cn, 我做的这个镜像,有段时间一天跑一百多个 g 的 cdn ,一看 nginx 日志,河南某个机房,都是同一个 ip 段一百多个 ip ,批量刷的
    herozzm
        8
    herozzm  
    OP
       2021-07-01 13:58:08 +08:00
    @yanzhiling2001 就是怕封错,另外封了这个 ip 段,搞不好又来另外一个 ip 段
    herozzm
        9
    herozzm  
    OP
       2021-07-01 14:03:21 +08:00
    @levelworm 感觉每次发起访问都是从 ip 池随机挑选了一个 ip,ip 没有规律
    herozzm
        10
    herozzm  
    OP
       2021-07-01 14:13:28 +08:00
    @johnsona 查不到 ip 到底是什么,只能看到属于机房,唯一的特征是翻页到某个列表上百页后看,正常人不会的
    herozzm
        11
    herozzm  
    OP
       2021-07-01 18:57:20 +08:00
    @johnsona 我把 ip 过滤出来,append,没法更多,有什么办法吗?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   994 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 22:34 · PVG 06:34 · LAX 14:34 · JFK 17:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.