Claude 3.5 Haiku 模型发布！ Claude 3.5 Sonnet 重大升级，可操作计算机

60 天前

spoock1024

Claude 3.5 Haik 模型发布

刚刚，Anthropic 宣布推出Claude 3.5 Haiku模型，并对 Claude 3.5 Sonnet 进行升级，同时推出了公测版的 computer use 功能，教 AI 像人一样操作计算。

也就是 Claude 能够模仿人类的方式使用电脑，它可以自主查看屏幕、移动光标、点击按钮、输入文本等。还能够自动化执行多个步骤的复杂任务，如填写在线表格、搜索数据、提交报告等，从而大幅减少人工操作时间。

Claude 3.5 能够在计算机界面上导航，通过切换窗口、打开菜单、选择选项等操作，完成多步骤的任务。

开发者可以利用这项功能自动化重复任务、开发和测试软件、进行开放式任务（如研究），甚至在复杂的应用场景中进行交互。

Claude 模拟人类的电脑交互

屏幕查看：AI 能够“查看”计算机屏幕上的内容，识别界面元素，并根据指令进行交互。
光标移动：Claude 3.5 能够模拟光标移动，准确定位目标区域，模仿人类在界面上的操作。
点击按钮：模拟鼠标点击，执行界面上的按钮操作，推动任务的进一步完成。
输入文本：AI 可以在文本框中输入数据，支持表单填写、文档编辑等任务。

自动化复杂的多步骤任务

任务自动化：AI 可自动执行多个步骤的复杂任务，如填写在线表格、数据检索、提交报告等，减少人工操作时间。
多步骤导航：能够在计算机界面上导航，通过切换窗口、打开菜单、选择选项等完成多步骤任务。

指令翻译与执行

指令翻译：开发者可以给 AI 发出高层次的指令，例如“用电脑上的数据填写表格”，Claude 3.5 能够将这些指令翻译成具体的电脑操作步骤。
基于 UI 的工作流：不仅可执行单步操作，还可在用户界面中基于任务要求实现多步骤的工作流。

Claude 3.5 Sonnet 改进

该版本在多项行业基准测试中表现优异，尤其在编程和工具使用任务上有显著提升。
在编程测试（ SWE-bench Verified ）中表现提高到 49%，在零售领域的工具使用测试（ TAU-bench ）中提升至 69.2%，航空领域则达到了 46%。
新版 Sonnet 与其前代版本保持相同的价格和速度，并在多步开发过程中提高了推理和编程能力。

Claude 3.5 Sonnet 更强的编程能力

显著提升编程任务性能：
- Claude 3.5 Sonnet 在 SWE-bench Verified 编程测试中的得分从 33.4% 提高到 49.0%，表现优于所有其他公开可用的模型（包括 OpenAI 的 o1-preview 和专用的编程模型）。
更好的推理与工具使用：
- 在零售领域的 TAU-bench 工具使用测试中得分从 62.6% 提升到 69.2%；在航空领域的挑战性更大的测试中，从 36.0% 提升到 46.0%。
改进的多步任务处理：
- 新版 Sonnet 在 DevSecOps （开发与安全操作）任务中表现更优，有高达 10% 的推理能力提升，且保持与前代相同的响应速度。

Claude 3.5 Sonnet 适用更多开发环境

高效编程：
- Claude 3.5 Sonnet 在多步软件开发过程中表现更优，对 AI 代理、工具使用和自动化任务等应用更具优势。
企业合作测试：
- 经过美国和英国 AI 安全研究所的联合预部署测试，确保在关键场景下的性能稳定性与安全性。
用于 DevSecOps 和自主 AI 评估：
- 例如，GitLab 在测试中发现该模型在 DevSecOps 任务上推理更准确，Cognition 公司则利用其在编码、规划和问题解决方面的提升，用于自动 AI 评估。

Claude 3.5 Haiku 正式发布

Claude 3.5 Haiku 是速度最快的新一代模型，在多项测试中超越了上一代的 Claude 3 Opus ，同时保持了低延迟和高指令跟随能力。该模型适用于用户界面任务、个性化体验生成等需求。

Claude 3.5 Haiku 是目前速度最快的模型，同时在多项智能基准测试中表现超越了 Claude 3 Opus 。
在编程测试（ SWE-bench Verified ）中，Claude 3.5 Haiku 的得分为 40.6%，超过许多其他先进模型（如原版 Claude 3.5 Sonnet 和 GPT-4o ）。
该模型在低延迟、跟随指令的准确性以及工具使用的精确度方面都有显著提升。
特别适用于用户界面任务、个性化体验生成和大规模数据处理（如购买记录、定价或库存记录）。

Claude 3.5 Haiku 主要功能与优势

高速度与低延迟： 该模型在响应速度上更快，保持高效的指令跟随能力，适合各种实时应用场景。
指令跟随的改进： 能够准确理解和执行复杂任务，包括编程、工具使用等，这使得它在多步骤任务中的表现尤为出色。
适合多场景的应用： 无论是用于专门的子代理任务、用户界面任务，还是需要处理大量个性化数据的场景，Claude 3.5 Haiku 都表现出色。

Claude 3.5 Haiku 将在本月晚些时候上线，用户可以通过 Anthropic 的 API 、Amazon Bedrock 和 Google Cloud 的 Vertex AI 访问该模型。

初期版本将仅支持文本输入，未来会加入图像输入功能，进一步扩展其应用范围。

Claude 3.5 Haiku 模型发布！ Claude 3.5 Sonnet 重大升级

2140 次点击

所在节点

5 条回复

haimianbihdata

60 天前

这不高级 rpa 了？

ziseyinzi

60 天前

面向 SEO 写作的范例

jhytxy

60 天前

这回厉害了

TimePPT

60 天前

这种无营养内容简直是毒瘤。想要外链打推广节点去

ninvfeng2020

60 天前

这个操作电脑得怎么用？

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1082721

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX