V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
catwalk
V2EX  ›  Claude

最近测试了几款 AI 国产模型,结果比我想象的还复杂

  •  
  •   catwalk · 1 天前 · 3617 次点击

    最近这两周,我一直在使用 cc + ccr 对不同 AI 模型的能力测试,想了解它们在实际应用中的表现。通过这些测试,我对几个热门模型有了一些使用上的心得和体会。

    首先是 KimiDeepSeek。官网版,但体验并不理想。两者在执行时都显得有些“力不从心”,不仅效果不如预期,而且余额很快消耗光,主要都限速(要充钱才能变快),几乎没能完成什么有价值的输出。Kimi 我用于写代码较多,Deepseek 用推理较多,尽管如此,我还是持续关注它们,期待能有所改进。

    后续出的 DeepSeek-V3.1 在最初测试时,竟然出现了“极”这样的异常情况,后面好像修复更新,也是拿来推理用。

    接着,我试了 GLM-4.5。令我意外的是,GLM-4.5 的表现超出了我的预期:它的速度相对更快,且能够产出不错的效果。在与其他模型对比时,GLM-4.5 无疑给了我更多的惊喜,它的稳定性和表现让我觉得性价比更高。缺点就是上下文有点短。好消息是有包月套餐,算是 cc 的平替版,但在隔壁站传出扣费问题,写的文档不清晰等问题。

    现在又有两个新模型发布了——qwen3-max-previewkimi-k2-0905256K。我首先测试了 kimi-k2-0905256K,发现它在前端的表现似乎不如 GLM-4.5,虽然其他方面的性能还没来得及详细测试,但初步使用下来,给我的感觉并不算太突出。

    接着,测试 qwen3-max-preview,这次的体验可以用“崩溃”来形容。测试过程中,速度极慢,不仅如此,出错了还说修复问题,结果还把生成的文件都删掉了。这个过程让我产生了强烈的幻觉感,似乎 AI 开始“自己”不知道该生成什么了,完全没有方向。介绍写着这次版本减少了幻觉的现象,但从实测结果来看,幻觉问题依然存在,甚至比之前的 qwen 版本还要明显。

    这两个新模型,目前的体验并没有带来太多突破。像 GLM-4.5 这样的模型,稳定性不错,另外据说 GPT-5 的效果有惊喜,后面再测试其他模型看看。综合来看,目前最好的效果还是 cc 。

    各位都用哪些模型?

    48 条回复    2025-09-08 22:13:06 +08:00
    catwalk
        1
    catwalk  
    OP
       1 天前
    对了,最近折腾下来,发现还是不要太折腾的好,以上测试只是研究学习为主,真正应该专注于业务,毕竟折腾花的时间不太值得
    haiku
        2
    haiku  
       1 天前 via Android
    体验就用各种服务商的免费版
    Cerebras 是个做专用推理芯片和服务的,上面的 qwen 3 coder 480b 速度快有免费额度,写写 Python 脚本、SQL 还行
    yannxia
        3
    yannxia  
       1 天前
    国产模型在 Coding 方面都差点意思,Qwen Coder & K2 算是最好了,和 Gemini Pro 的差距还很大,就不提 Cluade opus 了
    catwalk
        4
    catwalk  
    OP
       1 天前
    @haiku 现在测试 qwen 3 coder 是要比 qwen3-max-preview 快点 还好点,写脚本基本上都不差,要看综合能力,毕竟拿来干活的
    catwalk
        5
    catwalk  
    OP
       1 天前
    @yannxia 已经在进步了,其实有惊喜的,差距是有的
    CY4suncheng
        6
    CY4suncheng  
       1 天前
    我用的都是官方的 API + Claude code ,KIMI token 消耗的是真快,我一天花了 60 多块,之后换到了 deepseek ,感觉好多了,至少 tokens 消耗没那么多了
    catwalk
        7
    catwalk  
    OP
       1 天前
    @CY4suncheng 花钱不办事才是关键,deepseek 比 kimi 好点,综合能力不错
    lucifer9
        8
    lucifer9  
       1 天前
    qwen max 还没试过。前几天 A 社疯狂封号的时候用高粱米做代餐效果还行: 质量好不好不说,起码人家够快
    catwalk
        9
    catwalk  
    OP
       1 天前
    @lucifer9 很早就封号了,只不过现在更加疯狂,目前还在综合测试,glm4.5 确实在国产模型中(目前情况),看 glm 的营销也是目标明确,就是做 cc 的平替
    CY4suncheng
        10
    CY4suncheng  
       1 天前
    @catwalk #7 我觉得如果没有 anthropic 的订阅,Claude code 用哪家的都会效果打折的,所以要不就花钱上订阅,要不就干脆用其他的好了
    xctcc
        11
    xctcc  
       1 天前   ❤️ 1
    glm 那个官网购买套餐要支付宝刷脸实名直接把我劝退了
    yellowbean
        12
    yellowbean  
       1 天前 via Android
    qwen 那个上下文仅是谷歌的 1/4 不知道怎么想的 编程这种场景感觉上下文特别影响实际体验 尤其项目稍微复杂点
    catwalk
        13
    catwalk  
    OP
       1 天前
    @yellowbean 芯片问题?
    kongkx
        14
    kongkx  
       1 天前 via iPhone
    deepseek 3.1 + grok-code-fast 简单任务还行。 复杂点还是 grok 4 + grok-code-fast 。 蹭 cline 的免费额度。 感觉 Claude code 有点费 token ,纯 deepseek 3.1 都用不起。
    alex8
        15
    alex8  
       1 天前 via iPhone
    问了个 24 点游戏,Kim 一直说找到答案了然后给了个错误答案,唠叨了 5 分钟突然中断,感觉是到输出 token 的上限被系统强制终止回话
    234ygg
        16
    234ygg  
       1 天前
    综合实力没一个能打网页版 gpt5thinking 的,而且全都遥遥落后,真没什么好折腾的,用美区 Apple store 直接订阅难度也很低。
    顺带一提,很多人用的 api 都是假的,要么就是 ip 太脏被降智的,要么就是共享账号被降智的,所以简中圈 gpt 风评不太好
    lieliew
        17
    lieliew  
       1 天前
    gpt5high 用得舒服
    haiku
        18
    haiku  
       1 天前 via Android
    @234ygg GPT 的 API 我只敢用官方和 Azure 的
    Azure 的水平对比官方、Cursor 里的,看起来思考时间够长,回答也没打折扣
    XuanYuan
        19
    XuanYuan  
       1 天前 via Android
    用了一圈,我现在是 Grok 的忠实用户。
    icyalala
        20
    icyalala  
       1 天前
    现在我看到楼主这种排版和标点良好,有加粗和分段,格外喜欢用引号,说话文邹邹的风格,
    就有一种很明显的不似人写的感觉。。。
    laikick
        21
    laikick  
       1 天前
    能信国产模型的这辈子都有了 特别最近还不让用 nv 卡了 通通要支持 huawei
    zisen
        22
    zisen  
       1 天前 via iPhone
    gpt5 话太多了,问一个简单的问题能回复一大篇文章,还要自己筛选其中的有效信息
    Obj9527
        23
    Obj9527  
       1 天前
    GPT5 前几天还好,最近两天感觉有点降智
    至于编程我喜欢用 Claude Sonnet4
    catwalk
        24
    catwalk  
    OP
       1 天前
    @alex8 官网还是其他的免费额度?如果说免费额度,有时候也遇到截流 中断
    catwalk
        25
    catwalk  
    OP
       1 天前
    @234ygg 是的,不用中转,降智影响生产力,玩玩或者小东西 还可以用
    catwalk
        26
    catwalk  
    OP
       1 天前
    @XuanYuan 曾经一直用 Grok ,就是因为他的数据与 x 关联,但是上次充值 5 美刀送 150 刀/月,没用多久,连 5 美刀都不见了,联系客服都没得到回复,这有点黑,说没就没,拉黑不用 x ai 了
    catwalk
        27
    catwalk  
    OP
       1 天前
    @icyalala 内容是我自己写的,排版是让 ai 排版的,但他给我改了一些内容,我看了几遍 还特意改掉了,可能还有一些 ai 味在,这是我讨厌的地方,但我排版本身不好,所以用了一下 ai ,见谅
    catwalk
        28
    catwalk  
    OP
       1 天前   ❤️ 1
    @laikick 本身不太想回复这个,国内这个情况我大概了解一些,在有限的资源下还能做出来,有进步,值得鼓励。

    不让 nv 卡 支持国产芯片产业 那也是大国要走的方向,不能被卡脖子,但是没有新的光刻机,先进的只能让台积电代工,而因为地缘 zz 问题,现在只能用旧设备去想办法做。在这个情况下,能怎么样呢

    首先我是测试和体验国产模型,国外的芯片是先进,但你说 “信国产模型的这辈子都有了”,就有点过了。

    就简单说 国外的 AI 封号问题吧,1 是防止滥用,2 是地缘 zz 问题,3 是最近 a 社的问题,如果发展方向都是 3 这种问题,就被卡脖子,这时候国产模型的模型效果好,有了替代品那不是好事吗。

    普通老百姓使用 Ai ,跟 gj 层面不一样,这其实就是 AI 竞赛,人才方面基本上不是问题,现在问题是先进芯片被卡,现在是地缘 zz 博弈的问题。

    换个角度来看,美国也不被我们卡稀土的脖子吗,难道他们信他们的稀土段时间能发展起来,还跑去深海挖稀土,或者信他们的制造业,这辈子不也有了。
    Liftman
        29
    Liftman  
       1 天前
    cc max 和 codex 。 没有必要折腾。。。

    而且很多时候。测试的时候,能力部分接近只能说在简单情况下没问题。。

    当你的任务变大,复杂度变高。他的正确率降低到哪怕只有 95%。。多轮对话之后的糟糕性概率会指数级起飞。。。

    到时候还不是浪费自己的时间去找问题。。。

    这就是为什么 cc 有一个 plan mode 。能用最好的模型进行第一步。保证底子。。

    国产模型可以解决小问题,但是底子不行,永远不适合做工程性工作。
    catwalk
        30
    catwalk  
    OP
       1 天前
    @Liftman 同意,正解
    johnny2inc
        31
    johnny2inc  
       1 天前
    我这个只了解点前端三个和 Python 皮毛的小白这两天也在用 Claude Code 和 Claude Code Router 开发我人生第一个项目。

    最初我还没了解到 CCR ,又因为不能稳定地使用 A 社的服务,所以我一开始就只是改配置文件,然后用了硅基流动的 Kimi K2 。

    因为我从来没正经编程过,之前也没用过 Cursor ,所以我一上手 CC (虽然用的是 Kimi K2 模型),就感觉卧槽卧槽牛逼牛逼。

    不过,这个我个人理解不算很难的项目,用掉我硅基流动里二百多块的额度后,还是没有搞出可用的版本。

    过了一天,我了解到 CCR 这个项目,可以更方便地使用更多的渠道的模型了,我先换上了 gemini-2.5-pro 。这是我之前玩酒馆申请的 API ,套了一个轮询项目,玩酒馆还挺好使的。但用在 CC 上,各种报错,好像是截断很严重。最近没玩酒馆,不清楚酒馆里使用是不是也是截断严重。

    后来我换成了各种渠道的 qwen3-coder ,哇,不知道为什么,就是感觉比 Kimi K2 强好多,项目推进速度快了很多。

    我可以说是不懂编程,基本上都是 CC 在操作,除了之前 K2 花掉的二百多额度,今天 qwen3-coder 大概几个渠道又总共调用了 1500 次,然后目前除了前端部分地方很丑,我这个小项目感觉已经可用了。

    目前没在 CC 里用过 Claude 系列的模型,也还没尝试过 GLM-4.5 ,gemini-2.5-pro 在我这又基本不可用。

    只谈 qwen3-coder 和 Kimi K2 ,以我的体验,个人感觉 qwen3-coder 比 Kimi K2 强。

    这个小玩意儿开发完之后,下一个小玩意儿打算全程使用 GLM-4.5 试试看。

    最后,顺便问一下,CCR 里默认、后台、思考、长上下文、网络搜索、图像这几个模型你们都是设置的哪些模型?
    我现在网络搜索选择使用 gemini-2.5-flash ,后台使用硅基流动里免费的 deepseek-ai/DeepSeek-R1-0528-Qwen3-8B ,其他三个都用的是 qwen3-coder 。
    jjwjiang
        32
    jjwjiang  
       18 小时 19 分钟前
    @234ygg 有没有什么指标能看出来被降过?
    96
        33
    96  
       18 小时 10 分钟前
    楼主的测试貌似没有自己的指标。

    全文描述语句使用了:

    “理想,力不从心,不如预期,预期,惊喜,官网版和不错的效果”等。

    得出的结论:

    “比我想象的还复杂”
    leonleung
        34
    leonleung  
       18 小时 9 分钟前
    Kimi 充了一百,用 k2 很快就用光额度了。。。效果一般般
    catwalk
        35
    catwalk  
    OP
       18 小时 8 分钟前
    @johnny2inc ccr 作者说过,让专业的模型做专业的事,所以我也挺喜欢用 ccr ,主要学习研究,因为都是简单测试,所以只是体验分享,目前测试,小的东西 GLM-4.5 比较听话,大一点的项目 据说因为上下文短,效果也不理想,有在传智普在弄 256k 上下文,后面应该会更好点。

    有时间可以折腾,没时间直接一步到位,我主要是想了解下各个模型的专长在哪,更好利用。也想看看各个模型之间的差距。

    搜索和后台都用 gemini-2.5-flash ,后台注意,有些免费是限速。

    默认看你认为哪个好,作为主力就用哪个。

    上下文 gemini-2.5-pro ,或者其他 claude-sonnet 、claude-opus 。
    catwalk
        36
    catwalk  
    OP
       18 小时 7 分钟前
    @96 简单测试,个人感受,不是专业测评,见谅,只是分享一下
    catwalk
        37
    catwalk  
    OP
       18 小时 6 分钟前
    @leonleung 感觉比 cc 、gpt-5 还要贵,毕竟按干活来算,要做出东西才能算性价比,做不出东西等于浪费了
    uni
        38
    uni  
       17 小时 43 分钟前
    gpt plus 会员 20 美元一个月,codex 无限量。我感觉这 20 美元是我这辈子花得最值的钱
    lishunjie
        39
    lishunjie  
       17 小时 29 分钟前
    坚定不移的使用 ChatGPT Plus 已有 2 年,这 2 年,隔一阵子蹦出来一个大模型号称对标 ChatGPT 3.5 、4.0 、4.5 ,还好没折腾,选择第一梯队领头羊准没错。
    vipfts
        40
    vipfts  
       17 小时 28 分钟前
    物理移民难, 数字移民还不简单
    Wenstor
        41
    Wenstor  
       17 小时 25 分钟前
    @catwalk #4 大佬,因为我有一张 4060Ti 16G 内存的显卡了,我想再整个 5600MHz 128G 内存的极魔客 k12 AMD Ryzen™ 7 H 255 ,8 核 16 线程,Zen 4 处理器,自带 oculink 的小主机,用来本地跑 Qwen3-coder 模型,看看代码使用,请问这个配置可以吗?或者有什么建议的能够流程跑 Qwen3-coder 模型(模型具体的量化版本还没考虑清楚),速度还可以的配置?只做选配置参考使用,大佬请放心建议!感谢!
    catwalk
        42
    catwalk  
    OP
       17 小时 14 分钟前
    @uni 准备开,codex 听闻比 cc 还好,是吗,实测怎么样
    catwalk
        43
    catwalk  
    OP
       17 小时 9 分钟前
    @Wenstor 抱歉,我不是什么大佬,只是玩玩,硬件这块不在行,可以问问 gpt
    DivSoup
        44
    DivSoup  
       17 小时 5 分钟前
    glm-4.5 效果很不错,主要是包月很便宜。
    Wenstor
        45
    Wenstor  
       16 小时 11 分钟前
    @catwalk #43 好的,你的配置方便分享下我参考参考吗? CPU 型号和内存大小这一块
    catwalk
        46
    catwalk  
    OP
       15 小时 21 分钟前   ❤️ 1
    @Wenstor 可能你误会了,我只是用 APi ,不是本地模型
    killua67
        47
    killua67  
       11 小时 22 分钟前
    和我感觉也差不多,kimi 感觉太慢了,ds 就不说了,qwen code 感觉效果和价格不匹配,GLM 是综合不错的
    catwalk
        48
    catwalk  
    OP
       5 小时 22 分钟前
    @killua67 qwen coder 之前还算不错,但这次的 qwen3-max-preview 比较失望,曾经很多遍,有点不如 kimi-k2-0905256K ,现在测试的 kimi-k2-0905256K 和 glm4.5 差不多了,感觉 k2 还不错,因为上下文大点,只要提示词足够详细,还是可以的
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   948 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 19:35 · PVG 03:35 · LAX 12:35 · JFK 15:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.