节点赞助商

wadewade

越来越怀疑,很多 Agent 现在根本进不了企业

  •  
  •   wadewade · 13h 24m ago · 945 views

    最近这段时间,我一直在做 Agent Runtime 。

    然后越做越发现一个问题。

    现在很多 Agent Demo ,看起来真的很猛。

    会规划。 会调用 Tool 。 会 MCP 。 会 Multi-Agent 。 还能自己拆任务。

    但问题是。

    这些东西很多时候只适合 Demo 。

    一旦真的开始接企业里的系统,问题马上就开始出现。

    比如:

    一个长任务执行 20 分钟之后,上下文乱了怎么办?

    多个 Agent 同时修改状态,memory 冲突怎么办?

    AI 调错 Tool 了怎么办?

    任务执行到一半挂了,怎么恢复?

    企业里的权限怎么隔离?

    出了问题之后,怎么审计?

    这些问题其实都不是 Prompt 能解决的。

    甚至很多都已经不是“大模型问题”。

    而是 Runtime 问题。

    我现在越来越觉得,现在很多人其实高估了 Agent 的“智能”,但低估了 Agent 真正进入生产环境的难度。

    因为 AI 一旦开始真正“做事”,而不是聊天,它碰到的问题会越来越像:

    • 分布式系统
    • 状态机
    • 调度系统
    • 工作流引擎
    • 权限系统

    而不是 Prompt Engineering 。

    所以我最近在做的东西,核心已经不是“怎么让 Agent 更聪明”。

    反而是:

    怎么让 Agent 不失控。

    现在我的思路有点像:

    Runtime 负责管理。

    Agent 负责干活。

    用户请求进来之后,Runtime 先做路由,再把任务交给不同领域的“数字员工”。

    每个员工只负责自己领域内的事情。

    然后 Runtime 去解决:

    • 权限
    • memory
    • 调度
    • sandbox
    • 状态恢复
    • 多 Agent 协同
    • Human-in-the-loop

    这些问题。

    我现在甚至有一种感觉。

    未来企业真正需要的,可能根本不是一个“超级 Agent”。

    而是一套稳定的数字员工系统。

    而真正难的部分,也不是模型。

    而是 Runtime 。

    19 replies    2026-05-29 01:03:15 +08:00
    leoliu168
        1
    leoliu168  
       12h 29m ago
    有道理,魔鬼都在细节,需要用确定性的 runtime 来控制大模型的不确定性
    cadl
        2
    cadl  
       12h 23m ago
    写的好好。 感觉现在人在充当着这个 runtime 的角色。我有一个类似问题的想法,还在实现中……
    thedog
        3
    thedog  
       12h 22m ago
    有多少人工才有多少智能。agent 需要由 agent 工程师让他变得好用。
    409164
        4
    409164  
       12h 19m ago
    两个顶级模型来回修正,效果比人工好
    chairuosen
        5
    chairuosen  
       12h 18m ago   ❤️ 1
    这不就是他们说的 harness
    shakaraka
        6
    shakaraka  
    PRO
       12h 17m ago
    多数企业要的是一个“稳定可靠的系统”+“AI 叙事”+“轻量化 AI 应用”,这样才能赶上互联网潮流,坑钱骗投资骗预算,见多了
    JYii
        7
    JYii  
       12h 16m ago
    问题已经从使用大模型,上升到软件工程问题了
    wadewade
        8
    wadewade  
    OP
       11h 20m ago
    @shakaraka 任何技术初期都有这样的投机者,但是真正能做到落地的人或者公司,未来都会是一个新的持续增长点
    wadewade
        9
    wadewade  
    OP
       11h 19m ago
    @JYii 是的,模型虽然强,但是也会发疯,需要控制好它的能力边界。
    wadewade
        10
    wadewade  
    OP
       11h 15m ago
    @409164 是的,这个评估机制确实可以有。这样可以减少模型幻觉带来的盲目自信,不过还是在关键节点,通过 runtime 限制死,核心的动作必须要人工参与授权。企业落地哪怕只有 1%的概率会出现不可控都是很难接受的,不可控带来的就是损失,那产品的信用也就毁了
    newaccount
        11
    newaccount  
       11h 14m ago
    不是有人么?
    企业上这东西的意义是让一个人可以干原来五个人的活,而不是上了之后不要人了
    wadewade
        12
    wadewade  
    OP
       11h 14m ago
    @thedog 对呀,就目前阶段来说,模型确实很强,但是幻觉也很严重,还是要靠人去构建系统架构才能真正的进入企业级场景
    wadewade
        13
    wadewade  
    OP
       11h 13m ago
    @cadl 可以一起探讨一下,我最近就在做这个东西。
    wadewade
        14
    wadewade  
    OP
       11h 12m ago
    @leoliu168 是的,企业不会为充满不确定性的产品付费。
    wadewade
        15
    wadewade  
    OP
       11h 9m ago
    @newaccount 对的呀,肯定需要在关键的节点卡 HITL ,目前的模型能力还无法完全替代人。所以需要构建一套确定性的 Runtime 体系去控制住模型的幻觉
    thedog
        16
    thedog  
       9h 33m ago
    @wadewade 也没有那么复杂。少数的人就可能调教出很强的 agent 了。主要还是模型要强。
    wadewade
        17
    wadewade  
    OP
       9h 18m ago
    @thedog 这个需要反驳一下,哈哈哈,模型底层就注定了它没办法永远稳定,即使你把温度压到最低,它天然就是进行向量计算预测,如果完全通过模型去预测,可能真的得等到世界模型了,否则现在的模型想要稳定进入企业不太可能。还是需要软件工程去限制它的能力
    way2explore2
        18
    way2explore2  
       4h 5m ago via Android
    @chairuosen 正解啊,这就是推的 harness
    way2explore2
        19
    way2explore2  
       4h 4m ago via Android
    安利一下自用的 harness plugin

    https://github.com/tim-hub/powerball-harness/
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   913 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 44ms · UTC 21:07 · PVG 05:07 · LAX 14:07 · JFK 17:07
    ♥ Do have faith in what you're doing.