最强开源大模型 Llama 3 王者归来!最大 4000 亿参数!挑战 GPT-4!

69 天前
 spoock1024

原文链接:全网首发,Meta Llama-3 全方位详解

扎克伯格:「有了 Llama 3 ,全世界就能拥有最智能的 AI 。」

ChatGPT 拉开了大模型竞赛的序幕,Meta 似乎要后来居上了。

本周四,AI 领域迎来重大消息,Meta 正式发布了人们等待已久的开源大模型 Llama 3 。

Llama 是由 Meta(FaceBook) AI 发布的一个开源项目,允许商用,影响力巨大。之前发布的 Llama 2 ,支持 4096 上下文,性能卓越,被认为是 GPT 系列最大的竞争对手(之一)。

Meta 发布了 Meta Llama 3 系列语言模型( LLM ),具体包括一个 8B 模型和一个 70 B 模型在测试基准中,Llama 3 模型的表现相当出色,在实用性和安全性评估中,与那些市面上流行的闭源模型不相上下。

Llama 3

中国时间 2024 年 4 月 19 日 0 点 0 分,Meta Llama 3 发布。模型以开源形式提供,包含 8B 和 70B 两种参数规模,涵盖预训练和指令调优的变体。Llama 3 支持多种商业和研究用途,并已在多个行业标准测试中展示了其卓越的性能。

Llama 3 将数据和规模提升到新的高度。Meta 表示,Llama 3 是在两个定制的 24K GPU 集群上、基于超过 15T token 的数据上进行了训练 —— 相当于 Llama 2 数据集的 7 倍还多,代码数据相当于 Llama 2 的 4 倍。从而产生了迄今为止最强大的 Llama 模型,Llama 3 支持 8K 上下文长度,是 Llama 2 容量的两倍。

技术信息

Transformer 架构

Meta Llama 3 采用了优化的自回归 Transformer 架构,这种架构专为处理复杂的文本生成任务设计,能够有效提升生成文本的连贯性和相关性。

混合调优

模型结合了监督式微调( SFT )和带人类反馈的强化学习( RLHF ),这种混合方法不仅增强了模型的帮助性,也提高了安全性,使得模型在实际应用中更加可靠和符合用户预期。

性能卓越

在多个行业标准基准测试中,特别是在对话类应用中,Meta Llama 3 的表现超过了许多现有的开源聊天模型,显示了其强大的应用潜力,具体后面细说。

训练数据

海量数据

Llama 3 使用了超过 15 万亿令牌的公开在线数据进行预训练,这些数据经过精选,确保模型训练的广泛性和高质量输出。

最新的数据

8B 版本数据更新截止至 2023 年 3 月,而 70B 版本则更新至同年 12 月。

支持 30 种语言

虽主要以英语为主,但预训练数据中包含超过 30 种语言的高质量非英语数据

政治正确

碳排放抵消

Meta 承诺通过其可持续性计划抵消预训练过程中产生的所有 CO2 排放( 2290 吨 CO2 等效)。

很守规矩

Llama 3 的使用严格遵守法律法规,确保不被用于任何非法活动,同时强调了对知识产权和合规性的重视。Llama Guard 模型旨在为及时响应安全奠定基础,并可根据应用需求轻松微调以创建新的分类标准。作为起点,新版 Llama Guard 2 采用了最近公布的 MLCommons 分类标准。此外,CyberSecEval 2 在其前身的基础上进行了扩展,增加了对 LLM 允许滥用其代码解释器的倾向、攻击性网络安全能力以及对提示注入攻击的易感性的测量。最后,Meta 将推出代码盾( Code Shield ),它增加了对 LLM 生成的不安全代码进行推理时过滤的支持。这可以降低不安全代码建议、代码解释器滥用预防和安全命令执行方面的风险。

技术性能

这次的 Llama 在性能上展现了大幅度提升,包括最直接的 8k 上下文(之前是 4k ),以及可以更好的完成输出任务。

性能测试

基准测试

Meta Llama 3 的 70B 模型在多项基准测试中显示出色的性能,例如在 TriviaQA-Wiki 测试中达到了 89.7% 的准确率,明显优于其他同规模模型。

在内部开发的高质量人类评估集中,该评估集包含了 1,800 个提示,覆盖了 12 个关键用例(包括咨询、编码、创意写作等),Llama 3 在这些实际应用场景中的表现同样卓越。

这里再附一张 Llama 2 和 3 的对比:

现实场景

根据人类评估者的偏好排名,Llama 的 70B 参数模型在实际应用场景中的表现,尤其是在指令跟随方面,相较于其他相当规模的模型表现出了显著的优势。

架构与优化

模型架构

Llama 3 采用了自回归 Transformer 架构,这种结构特别适合于处理复杂的文本生成任务,能有效提升文本的连贯性和相关性。

引入了分组查询注意力( Grouped Query Attention, GQA )技术,这不仅提升了大数据处理的效率,还加快了响应速度。

训练和微调

在预训练阶段,Llama 使用了超过 15 万亿令牌的高质量数据集,包括多种语言的文本,以确保模型具有广泛的适用性和优异的性能。

在微调阶段,通过监督式微调( SFT )和带人类反馈的强化学习( RLHF )的混合方法,Llama 显著降低了错误拒绝率,改善了模型的对齐和响应多样性。

性能提升

Llama 3 在本次更新中,在推理、代码生成和指令跟随等方面有了明显的能力提升。

如何使用

作为一个开源 LLM ,你可以通过多种方式来使用:直接用别人部署好的产品,找部署好的接口,或者自己部署

直接使用

huggingface

地址在这,进去后直接切模型: https://huggingface.co/chat/

但是实际测试下来,发现目前 Llama 3 对于中文的支持并不是很好,默认情况下会采用英文回答,但是可以要求使用中文回答。

Replicate

8B 模型: https://replicate.com/meta/meta-llama-3-8b

70B 模型: https://replicate.com/meta/meta-llama-3-70b

Meta AI

Meta 自己拿 Llama 3 做的,这里访问: https://ai.meta.com/

注意,这个锁地区。

第三方 API

微软 Azure

地址在这: https://azuremarketplace.microsoft.com/en-us/marketplace/apps/metagenai.meta-llama-3-8b-chat-offer?tab=overview

Replicate

他们好卷...Llama 发布 1 个小时,他们就上线服务了,这俩地址也能走 API

8B 模型:hat/https://replicate.com/meta/meta-llama-3-8b

70B 模型: https://replicate.com/meta/meta-llama-3-70b

自己部署

Meta 项目官网

地址在这: https://llama.meta.com/llama-downloads

Github

项目地址: https://github.com/meta-llama/llama3

其他

跟随 Llama 3 发布的,还有 Meta AI 系列,包括:一款手机 app ,一个网站,还有一堆在 Meta FaceBook 全家桶里的插件。

扎克伯格表示,Meta 提供的生成式 AI 能力在免费产品中性能是最强大的。

目前 Llama 3 在 Meta 的各个产品中已经全部集成中了。在 Facebook 、Instagram 、WhatsApp 和 Messenger 上,用户现在可以借助 Meta AI 进行搜索,无需在应用程序之间切换。

总结

8B 和 70B 两个型号的模型,标志着 Llama 3 系列的开端,下一步还会有更多。

Meta 表示, 「最大的 Llama 3 」参数超过 400B ,虽然这些机型仍在训练中,但在接下来的几个月中也将陆续发布,新功能包括多模态、多语言对话能力、更长的上下文窗口以及更强的整体能力。

一旦完成 Llama 3 的训练,Meta 还将发表一篇详细的研究论文。

Llama 3 还未到来的 400B+ 版本会有多强?它一旦发布是不是意味着开源社区就将迎来 GPT-4 级大模型?

也许只有 OpenAI 的 GPT-5 才能压下开源模型了。

按照 ChatGPT Plus 升级教程 ,可以快速升级到 ChatGPT plus ,后续就可以第一时间体验到 GPT-5 最新功能。

OpenAI 刚刚发布了最新的 GPT4-Turbo ,现在 Llama3 就立马发布了。大模型都要卷起来啊!希望这个大模型越来越强大,使用越来越方便,价格也更便宜!

都给我卷起来!

参考

https://llama.meta.com/llama3/

https://www.facebook.com/4/videos/377361005296904/

https://www.reuters.com/technology/meta-releases-early-versions-its-llama-3-ai-model-2024-04-18/

https://www.theverge.com/2024/4/18/24133808/meta-ai-assistant-llama-3-chatgpt-openai-rival

3888 次点击
所在节点    分享发现
20 条回复
infun
69 天前
吹牛没输过
2 真用起来有时候连 3.5 都不如
ersic
69 天前
你这广告打的还挺隐晦
ninvfeng2020
69 天前
看起来有点牛啊,不知道本地部署得什么硬件
chiu
69 天前
“The domain chatgptgogogo.com is blocked”
wilsonsui
69 天前
gaobh
69 天前
推广就老老实实发推广节点也没人说的,反而会给人好感哈哈
chengxiao
69 天前

试了一下 Llama3 8B 中文支持欠佳
otakustay
69 天前
@chengxiao llama base 中文一直很差,得要 alpaca 中文
slim031417
69 天前
标题党 + 引流贴。
1 、看了下您历史发的贴子中,都包含 chatgptgogogo
2 、llama3 blog 中仅有一处和 3.5 的评测指标对比
3 、第一句话是扎克伯格说的,还是您说的,和 most intelligent 相关表述我只搜到了 Mark Zuckerberg called "the most intelligent AI assistant that you can freely use."
4 、但凡您放几个自己对比的提问都不说引流,好歹传递些有效信息
itskingname
69 天前
等 Llama3 的中文支持正常以后,再来谈什么超越 GPT 4 这种话吧。
vanchKong
69 天前
@chengxiao 部署不同的大模型,估摸着需要多大配置啊?
chengxiao
69 天前
@vanchKong #11 看模型的参数类型吧
我是用的 64G 内存+4090 24G 32B 的跑起来还可以 70B 的就非常卡了
GrayXu
69 天前
@chengxiao #7 llama 之前的版本本来也没怎么针对中文做
v2z4
69 天前
用 poe 试了 70B ,生成代码速度超快,用英文回复。中文支持现在就可以了,它用英文推理应该性能会更好。
spoock1024
69 天前
@v2z4 可以,我也去 poe 试试看
WilliamZuo
69 天前
无聊的引流贴。
Andim
69 天前
@chiu 感谢提醒
chengxiao
69 天前
@vanchKong #11 看了下占用,对运算力要求不是很高 主要是显存占用的多,4090 功耗还没到 200w ,但是显存满了,瓶颈应该在显存,内存占用 20G 左右,当然我没关其他程序。当然这是单人问答测试,实际的商用的话估计要高很多

vanchKong
69 天前
@chengxiao 确实还是蛮恐怖的硬件需求的,我以为 7B 的能部署在 nas 上的,估计 2B 都不行
waityan
69 天前
中文支持还差点意思,但是能力水平还是不错的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1033801

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX