AI 程序员 Devin 诞生 能够独立从 0 构建网站并 Debug

253 天前
 JohnChang

3 月 13 日,人工智能初创公司 Cognition AI 发布首个 AI 工具「 Devin 」。该 AI 号称掌握编程工作的全栈技能,可以独立完成整个项目的软件开发。相比曾经辅助程序员编码的 AI 工具「 Copilot 」,Devin 具有独立驾驭整个编程项目的能力,更接近一个人类程序员。

Perplexity CEO 评价 Devin ,称它所展示的 Demo 意味着业内第一个真正的 Agent 诞生。言下之意是这个产品开始具备推理和规划能力。Devin 目前只提供私人预览版,尚未向公众开放。

如何使用 Devin 以及它表现如何?

作为一个软件开发工具,Devin 号称能够在接收到具体任务指令后,自主完成整个项目的开发。目前,Devin 不仅会构建和部署端到端的应用程序、自行查找并修复代码库错误,还可以训练和微调 AI 模型,并修复开源代码库中的错误。

与人类软件开发者的工作方式相似,用户只需要通过聊天对话框提出需求,Devin 便能够基于需求规划出解决方案,并运用其集成的开发工具,编写代码、定位并修复漏洞、执行测试,同时实时向用户报告项目进展。例如,在收到建立一个展示某区域全部餐馆的网站任务时,Devin 可以自动搜索和收集数据,随后构建并上线该网站。

f46f483d6f504deaa79849038780023a_1080x57 在 SWE 基准测试中,Devin 能够端到端地正确解决 13.86%的案例,相比之下,Claude 2 和 GPT-4 分别只能处理 4.80%和 1.74%的问题。SWE 测试使用来自现实世界开源项目的 GitHub 问题来挑战人工智能助手。

其他 AI 工具只能辅助编码,Devi 的突破在于可以自动完成整个项目

AI 技术在软件开发行业已非初见,多种工具如 GitHub Copilot 、StarCoder 以及在 Hugging Face 上拥有若干小型 AI 编码模型的 Replit ,以及最近获得 6500 万美元 B 轮融资的 Codeium 等早已广泛应用。这些工具主要侧重于 AI 辅助编码,它们的功能局限于提供编码建议、生成基本代码或帮助解决特定编程问题。

Devin 则更类似一个 AI 软件工程师,可以独立承担和完成整个软件开发项目。不过,同样依赖于训练数据来学习的 Devin 在理解和解决特别复杂或非标准化问题上能力有限,比如对于一些少见的问题,它可能无法找到最优解决方案,也无法完全模拟人类软件工程师的创造性思维。

Cognition AI 由 Scott Wu 、Steven Hao 、WaldenYan 联合创立,都是 IOI 金牌得主

Scott Wu:联合创始人兼 CEO (首席执行官),毕业于哈佛大学,曾获得过美国三届奥赛金牌,并曾是 Lunchclub 的联合创始人兼 CTO ,为 2012 年至 2014 年连续 3 年的 IOI ( International Olympiad in Informatics ,国际信息学奥林匹克竞赛)金奖得主,IOI 是面向中学生的信息学科竞赛,一年举行一次。

Steven Hao:联合创始人兼 CTO (首席技术官),毕业于 MIT 计算机专业,之前曾在 Scale AI 、Jane Street 、DE Shaw 、Quora 工作,为 2014 年第 32 届 IOI 金牌得主;

WaldenYan:联合创始人兼 CPO (首席产品官),毕业于哈佛大学计算机科学和经济学相关专业,曾从事 MIT PRIMES 密码学和机器学习方向的计算机科学研究,为 2020 年第 32 届 IOI 金牌得主。

Cognition AI 成立时间不足两个月,专注解决人工智能的推理问题

Cognition AI 没有透露产品细节,也没有透露 Devin 构建在什么样的模型上,是自研还是基于 GPT 之类的第三方模型。不过,Cognition 称这项工作是其「长期推理和规划方面的进步」的结果。基于推理和规划能力,Cognition 表示「编码只是开始」,未来,该公司还将在其他垂直行业开发类似的 AI 工具。

Cognition AI 公司总共 10 人,目前没有固定办公室——他们散落在硅谷和纽约之间的 Airbnb 以及家庭办公室中工作。虽然成立时间不长,但该公司已获得 2100 万美元 A 轮融资,投资者包括 Founders Fund 和 Twitter (现「 X 」)前高管 Elad Gil 等。

参考链接:

https://www.cognition-labs.com/blog

973 次点击
所在节点    分享发现
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1023752

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX