V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
stevenlu137
V2EX  ›  程序员

Autonomous AI agents 离实用有多远?

  •  
  •   stevenlu137 · 15 天前 · 1211 次点击

    这是 AIlice 近期发布的几个演示视频,展示了 agent 自动学习安装 huggingface 上的模型并使用,自动克隆 github 库并配置环境编译的能力.

    自主通用 AI agent 实战: 从文本到万物 https://youtu.be/N7egHboVf94?si=C6XgOriZ_HlRb8xd

    [懒人福音: 用 AI agent 自动寻找/克隆/配置/编译 c++库!] https://www.bilibili.com/video/BV116HjeKEkt/?share_source=copy_web&vd_source=add80800d19f5cef4b731a87c5fad2fa

    8 条回复    2024-08-31 11:32:28 +08:00
    GrayXu
        1
    GrayXu  
       14 天前
    agents 的多步的错误率放大问题?
    stevenlu137
        2
    stevenlu137  
    OP
       14 天前
    @GrayXu 好问题.AIlice 大概是业界第一个采用交互式代理调用树架构来解决这个问题的 agent.简单说,agents 之间是类似函数调用树的结构,但被调者和调用者之间是对话关系而非单向调用关系.对话带来了容错能力,另外调用树结构使得下属的错误可能由上级纠正,再不行还有更上一级的 agent 去纠正.总体上,纠错能力上升到了很多复杂任务都能顺利完成的程度.
    另外,AIlice 大概是第一个引入用户在任意时刻介入这种交互方式的 agent.在 agent 陷入错误方向时,用户可以随时介入把它拯救出来.
    matrix1010
        3
    matrix1010  
       14 天前
    看上去类似于 Devin? 但"安装 huggingface 上的模型并编译"从能力角度来说似乎还是远低于 Devin 的"自动写代码调试并跑起来". 另外 Devin 应该也可以用户在任意时刻介入吧,包括开源的类 Devin 产品估计也能
    stevenlu137
        4
    stevenlu137  
    OP
       14 天前
    @matrix1010 AIlice 是个通用 agent,不是 Devin 那种面向编程的.这意味着你可以用来做很多杂七杂八的事情,调查,读文献,数据分析,写代码,解决系统环境问题,用自然语言代替命令行等.另外它的架构更适合处理复杂问题,所以实际上,你不仅仅可以编译,比如拉下 github 后就让它给添加一个录像功能,这都是可以的.

    AIlice 去年十一月就开源了,也可以在开源模型上本地跑.Devin 是比较晚近推出的闭源商业产品.
    matrix1010
        5
    matrix1010  
       14 天前
    @matrix1010 我觉得不应该狭隘的理解为 Devin 只能写代码,Devin 自称是 software engineer ,一个 software engineer 应当也可以做各种通用的事情。当然我没用过 Devin ,但既然 Devin 开放申请你可以申请体验一下
    stevenlu137
        6
    stevenlu137  
    OP
       14 天前
    @matrix1010 我不知道有多少人真的申请到过.事实上 devin 几个月钱就被一位 youtuber 扒皮视频造假(
    ),所以炒作随之而息,这个新闻当初还是很轰动的.我相信 devin 具有一定的软件能力,但远不到它所声称的"软件工程师"的地步.

    现在的很多 agents 都能很好的写一些小程序并跑起来,困难的地方在于大软件项目的构建和修改,因为这考验 AI 的长期记忆和理解能力,而 LLM 有 context window 的限制,即便 claude 能给你 200k 的 context window,你还是没法解决推理的成本问题.AIlice 的调用树结构可以很大程度缓解这个问题,但也没有彻底解决.

    AIlice 放出来的视频都是从头到尾的录屏,没放过任何一个细节,所以任何人都可以去视频里找问题.同时 AIlice 是开源的,一行 pip 就可以装上检验效果.
    matrix1010
        7
    matrix1010  
       14 天前
    @stevenlu137 我认为"扒皮视频造假"这种用词有待商榷。Cognition 官方的宣传还是比较客观的,从没提过 Devin 取代程序员这类话题。宣传视频的 description 用词不当,但也没说 make money 成功,我认为只是稍微夸张了点的宣传而已。只是由于华人,金牌得主,AI ,程序员这些叠在一起自带流量导致很多自媒体往上蹭,造成了大量的炒作。

    作为程序员我认为应该从实践出发而不是相信任何自媒体的论断。我没用过 Devin 也没用过 AIlice ,我只是猜测 AIlice 能做到的 Devin 也全部能做到,所以不能说 AIlice 的通用型比 Devin 更强。
    stevenlu137
        8
    stevenlu137  
    OP
       14 天前
    @matrix1010 我没用过 devin,也没说 AIlice 比他强,我的观点是二者没有可比性.一个针对开发者,推出几个月仍然需要申请才有可能用一会儿的东西,和基于 MIT 协议,基于本机 LLM 就可以运行的面向普通用户的 AI 助手怎么比呢?有的任务你强些有的任务我强些能说明什么呢?

    这里是目前 AIlice 放出的一些视频

    https://www.youtube.com/@stevenlu-zh6ds

    有兴趣的同学可以看看.AIlice 只是在一个视频里展示了它可以直接编程应用 huggingface 上的模型,编译 cpp 项目,但不意味着它只做这些.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1782 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 16:18 · PVG 00:18 · LAX 09:18 · JFK 12:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.