Autonomous AI agents 离实用有多远?

114 天前
 stevenlu137

这是 AIlice 近期发布的几个演示视频,展示了 agent 自动学习安装 huggingface 上的模型并使用,自动克隆 github 库并配置环境编译的能力.

自主通用 AI agent 实战: 从文本到万物 https://youtu.be/N7egHboVf94?si=C6XgOriZ_HlRb8xd

[懒人福音: 用 AI agent 自动寻找/克隆/配置/编译 c++库!] https://www.bilibili.com/video/BV116HjeKEkt/?share_source=copy_web&vd_source=add80800d19f5cef4b731a87c5fad2fa

1562 次点击
所在节点    程序员
8 条回复
GrayXu
114 天前
agents 的多步的错误率放大问题?
stevenlu137
114 天前
@GrayXu 好问题.AIlice 大概是业界第一个采用交互式代理调用树架构来解决这个问题的 agent.简单说,agents 之间是类似函数调用树的结构,但被调者和调用者之间是对话关系而非单向调用关系.对话带来了容错能力,另外调用树结构使得下属的错误可能由上级纠正,再不行还有更上一级的 agent 去纠正.总体上,纠错能力上升到了很多复杂任务都能顺利完成的程度.
另外,AIlice 大概是第一个引入用户在任意时刻介入这种交互方式的 agent.在 agent 陷入错误方向时,用户可以随时介入把它拯救出来.
matrix1010
113 天前
看上去类似于 Devin? 但"安装 huggingface 上的模型并编译"从能力角度来说似乎还是远低于 Devin 的"自动写代码调试并跑起来". 另外 Devin 应该也可以用户在任意时刻介入吧,包括开源的类 Devin 产品估计也能
stevenlu137
113 天前
@matrix1010 AIlice 是个通用 agent,不是 Devin 那种面向编程的.这意味着你可以用来做很多杂七杂八的事情,调查,读文献,数据分析,写代码,解决系统环境问题,用自然语言代替命令行等.另外它的架构更适合处理复杂问题,所以实际上,你不仅仅可以编译,比如拉下 github 后就让它给添加一个录像功能,这都是可以的.

AIlice 去年十一月就开源了,也可以在开源模型上本地跑.Devin 是比较晚近推出的闭源商业产品.
matrix1010
113 天前
@matrix1010 我觉得不应该狭隘的理解为 Devin 只能写代码,Devin 自称是 software engineer ,一个 software engineer 应当也可以做各种通用的事情。当然我没用过 Devin ,但既然 Devin 开放申请你可以申请体验一下
stevenlu137
113 天前
@matrix1010 我不知道有多少人真的申请到过.事实上 devin 几个月钱就被一位 youtuber 扒皮视频造假( <amp-youtube data-videoid="tNmgmwEtoWE" layout="responsive" width="480" height="270"></amp-youtube>),所以炒作随之而息,这个新闻当初还是很轰动的.我相信 devin 具有一定的软件能力,但远不到它所声称的"软件工程师"的地步.

现在的很多 agents 都能很好的写一些小程序并跑起来,困难的地方在于大软件项目的构建和修改,因为这考验 AI 的长期记忆和理解能力,而 LLM 有 context window 的限制,即便 claude 能给你 200k 的 context window,你还是没法解决推理的成本问题.AIlice 的调用树结构可以很大程度缓解这个问题,但也没有彻底解决.

AIlice 放出来的视频都是从头到尾的录屏,没放过任何一个细节,所以任何人都可以去视频里找问题.同时 AIlice 是开源的,一行 pip 就可以装上检验效果.
matrix1010
113 天前
@stevenlu137 我认为"扒皮视频造假"这种用词有待商榷。Cognition 官方的宣传还是比较客观的,从没提过 Devin 取代程序员这类话题。宣传视频的 description 用词不当,但也没说 make money 成功,我认为只是稍微夸张了点的宣传而已。只是由于华人,金牌得主,AI ,程序员这些叠在一起自带流量导致很多自媒体往上蹭,造成了大量的炒作。

作为程序员我认为应该从实践出发而不是相信任何自媒体的论断。我没用过 Devin 也没用过 AIlice ,我只是猜测 AIlice 能做到的 Devin 也全部能做到,所以不能说 AIlice 的通用型比 Devin 更强。
stevenlu137
113 天前
@matrix1010 我没用过 devin,也没说 AIlice 比他强,我的观点是二者没有可比性.一个针对开发者,推出几个月仍然需要申请才有可能用一会儿的东西,和基于 MIT 协议,基于本机 LLM 就可以运行的面向普通用户的 AI 助手怎么比呢?有的任务你强些有的任务我强些能说明什么呢?

这里是目前 AIlice 放出的一些视频

https://www.youtube.com/@stevenlu-zh6ds

有兴趣的同学可以看看.AIlice 只是在一个视频里展示了它可以直接编程应用 huggingface 上的模型,编译 cpp 项目,但不意味着它只做这些.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1069162

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX