昨天晚上,Anthropic 公司推出 Claude 3 系列模型 ,被视为迄今最快且最强大的聊天机器人,能总结大约 20 万个单字(约一到两本长篇小说),使用者可上传照片、图表、文件等进行分析和解答,全面超越 GPT-4 ,大型语言模型(LLM) 的霸主一夕换人!
Anthropic 是一家人工智能初创公司,得到了亚马逊(以及其他公司)的支持,投资额达 40 亿美元。该公司是有效利他主义运动的松散一部分,这实际上意味着它试图以安全、负责任的方式开发人工智能技术,造福公众,而不仅仅是股东。
Claude 3 包括三个顶尖的模型,按能力递增排序:Claude 3 Haiku 、Claude 3 Sonnet 和 Claude 3 Opus 。
Anthropic 表示,Claude 3 系列模型在推理、数学、编码、多语言理解和视觉方面,都竖立了新的产业基准。
Claude 3 绰号涵盖了三个新的 LLMs ,其中最有能力的是 Claude 3 Opus 。这是 Anthropic 的全新高级 AI 模型,仅适用于 Claude Pro 用户。根据该公司的基准测试,其研究生水平推理能力在测试时得分为 50.4%,而 GPT-4 的得分为 35.7%。
接着是 Claude 3 Sonnet ,如果您不想支付 Claude Pro 订阅费用,可以使用它。当然,它仍然被认为是非常有能力的,其研究生测试分数为 40.4%(再次与 GPT-4 的 35.7% 分数相比)。
最后是 Claude 3 Haiku ,这是目前尚未发布的第三个模型。就复杂性和大多数功能而言,它位于家族树的底部,但其设计目的是成为最快的版本并提供近乎即时的响应。
以下是 Claude 3 与多个模型的比较:
由此可见,Claude3 已经超越了 GPT4 ,成为当前最强大的模型!
Claude 3 可以支持实时客户交流、自动文本补全和数据提取等任务,这些任务要求响应迅速且即时。Haiku 模型是最快速度和高成本效益的,它能够在短短三秒内处理和解读 arXiv 上的信息密集研究论文(约 10k 个字符),包括论文中的图表和图形元素。我们预期 Haiku 在发布后将进一步优化性能。相比之下,Sonnet 在处理速度上比 Claude 2 和 Claude 2.1 快两倍,并展现出更高的智能水平。它特别适用于需要快速反应的场景,如知识查询或销售流程自动化。至于 Opus ,则在保持与 Claude 2 和 2.1 相似的处理速度的同时,提供了更高级别的智能。
Anthropic 发表了一份长达 42 页的技术报告,以介绍自家这 3 款模型。Claude 3 系列模型能够支援即时使用者交流、自动完成和资料撷取等任务(需要立即且即时的回馈)。Anthropic 预计,在模型发布后,其效能还将得到进一步的最佳化。Claude 3 模型拥有与其他领先模型相当的复杂视觉能力。它们能够处理包括照片、图表、图形和技术图纸在内的各种视觉格式。
Claude 使用了一套大型的复杂、事实性问题集,这些问题针对当前模型的已知弱点。他们将响应分类为正确答案、错误答案(或幻觉),以及不确定性的承认,即模型表示它不知道答案,而不是提供错误信息。与 Claude 2.1 相比,Opus 在这些具有挑战性的开放式问题上展示了两倍的准确度提升(或正确答案),同时还降低了错误答案的水平。
也就是说模型会告诉你他不懂,而不是乱说从而误导你。(深受 GPT4 的欺骗)
Claude 提供了长达 200k 的上下文窗口。为了有效处理长篇的上下文提示,模型需要强大的回忆能力。"大海捞针"( Needle In A Haystack ,NIAH )评估衡量模型从大量数据中准确回忆信息的能力。我们通过使用 30 个随机针/问题对中的一个来增强这一基准测试的健壮性,并在多样化的众包文档库上进行测试。Claude 3 Opus 不仅实现了近乎完美的回忆能力,准确率超过 99%,而且在某些情况下,它甚至识别出了评估本身的局限性,通过识别“针”句似乎是人为插入到原始文本中的。
Claude 旧模型常因为不够理解而拒绝回答,Claude 3 系列已在此方面显著改进,Opus 、Sonnet 和 Haiku 在面对可能触及系统安全边界的询问时,大大减少了拒绝回应的情况。
虽然 Claude3 现在能够吊打 GPT4 ,但是价格实在是不太友好。API 比起 GPT4-Turbo 要贵很多。
现在这样看来还是 GPT4 比较划算。
GPT-4 Turbo (128K): $10 / $30
Claude 3 Opus: $15 / $75
Sonnet:$3 / $15
Haiku:$0.25 / $1.25
上面是 API 的价格,订阅 Claude Pro 也是可以使用 Claude 3 Opus 的,订阅价格跟 ChatGPT Plus 一样是每月 20 美元。
Claude 官网:Claude \ Anthropic
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.