Llama 2 可以在本地 Mac 运行了

2023-07-23 09:26:57 +08:00
 3dward
试了一下,可以玩玩。如果可以针对中文再训练一下,效果估计会更好了。可以商用后,真的造福人类:

https://www.bilibili.com/video/BV1HX4y1J76P/
5977 次点击
所在节点    分享发现
27 条回复
murmur
2023-07-23 09:31:12 +08:00
大语言最重要的是上下文,这才是堆硬件的意义,没有上下文的大语言还比不上 google ,不支持中文,上下文几乎没有,似乎还不如 chatglm 12g 的表现,而且你这资源都占了 40g 了
3dward
2023-07-23 09:41:51 +08:00
@murmur 支持上下文,中文也有支持只是不太好。具体我也不是很懂,只是本地做了个实验
locoz
2023-07-23 10:09:54 +08:00
实测 70B 版本干活的水平也就比之前稍微好点,跟 GPT4 还是差太多了,依然是只有聊天、知识库问答之类的简单场景适合用,还是处于玩具的水平。在这前提下能不能运行到本地设备的意义都不大了,缺乏实用性。
gaobh
2023-07-23 10:18:13 +08:00
046569
2023-07-23 10:37:03 +08:00
@locoz
方便分享测试数据么?
什么设备上测的?显存占用和速度( token/s )如何?
想升级设备.
locoz
2023-07-23 12:34:40 +08:00
@046569 #5 直接在 huggingface 上测的,资源占用情况不清楚,你可以租云算力跑一下试试
Jirajine
2023-07-23 13:31:49 +08:00
效果差就本地运行意义不大?本地运行最大的意义是可以自由使用,使用量、隐私数据、绕过法律道德伦理审查。
lingo34
2023-07-23 16:47:56 +08:00
不只可以在本地 mac 运行,连把道德枷锁去了的 uncensored 版都出来了。
这些家伙是真的快。
046569
2023-07-23 16:55:18 +08:00
@locoz
云计算参考意义不大,那些服务器个人购买还是太贵了.我想放在本地运行.感谢回复.

再蹲一会看看有没有类似的数据.
locoz
2023-07-24 00:19:50 +08:00
@046569 #8 就算你不考虑用服务器+专业卡,那些服务商里也有租消费级硬件的,国内这块市场很成熟了,主流选择随便一搜就能找到
046569
2023-07-24 10:03:33 +08:00
@locoz
算力云这些我也用过.之前炼丹就是在上面跑的.主打性价比.
但这些方案不太适合个人 **本地** 推理.

我调查过相关方案:

1. 3090 * 8 + NVLink ,保修堪忧,价格适中;
2. 4090 * 8 + 魔改 NVLink,淘宝有商家在做.可得到最高的推理性能.最贵.
3. Mac Studio 192G,大显存.最便宜但慢.

如果预算不足就只能选 Mac 了...
wanghui22718
2023-07-24 10:15:13 +08:00
@046569 4090 nvlink ? tb 没找到相关信息,求指教,感谢
locoz
2023-07-24 11:38:44 +08:00
@046569 #10 你似乎理解错了什么,我的意思是你如果想知道显存占用和速度( token/s )如何,完全可以租云算力自己测试,想用什么卡就租什么卡。

另外就目前这玩具水平来说,个人场景下的本地推理属实有点伪需求...不过你开心就好。
locoz
2023-07-24 11:39:48 +08:00
@046569 #10 你说的 4090+魔改 NVLink 指的具体是什么样的操作?我也没搜到相关的商家
ShadowPower
2023-07-24 12:02:50 +08:00
本地模型目前还是不实用。我平时主要用来生成代码和重构代码,还有翻译大量文本。
只有 ChatGPT 3.5 和 Claude 达到了能用的程度。

而且不少代码也是一次性使用/开源使用,完全不会涉及个人信息……
所以那两家免费服务已经完全满足需求了。

公司里会用开源模型来做一些自然语言处理任务。不过硬件也不需要自己操心,用的 NVIDIA 的专业卡……
046569
2023-07-24 14:33:15 +08:00
@locoz
问题是五万以内预算,兼顾大显存与保修,除了 Mac 就是 4090 * 2( 捡垃圾 3090 * 3 ).
不想采用 NVIDIA 的方案一是显存较小( 44G VS 192G ),需要拆分模型;二是作为一个臭打游戏的来说,老黄的吃相,影响食欲.
所以我更期待看到有关 Mac 的测试,似乎没看到各家的算力市场中有提供.如有请告知.根据我目前的测试,这里是有些坑的.多看看可以避坑.

大模型本地部署是有着很强的优势的,比如:

1. 不会因为大公司的模型一更新,你学会的方法就不能用了.
2. 可以进行训练微调,获取某个领域的专业技能.这点可能随着技术发展会被湮没.
3. 可以离线部署,不会泄密.
4. 对齐导致的精度下降等等.

简单的说,本地部署 VS 大公司产品可以理解成 NAS 和公有云网盘之争.私人网盘无论稳定性还是功能性都远远不如公有云,但很多人依然选择自建.我相信每个掏出真金白银的人都有充足的理由选择本地部署.从这个意义上说, Mac Studio 更适合小型工作室或者个人开发者. 不是所有的开发者都能拿出 A100 * 32,但他们仍然应该有资格入场,这是一种平等.

科技的进步如果让生产力垄断在少数公司手里,而不是让每个人变的更强大,这是何等悲哀的景象.

依我看:
用个人用户体验去判断某个行业的应用前景,未免武断了.至少也应该使用数据集进行测试, zero shot 能否满足需求? few shot 呢?Lora 表现如何?
现阶段,重视模型的使用胜于挑刺.采用更 open 的眼光看待新事物,保持对世界的好奇心,可以证明我还没老.

@wanghui22718
店铺叫开源宇宙 GPU 服务器工厂.

PS: 本人与该店铺无任何利益相关.
locoz
2023-07-24 22:22:02 +08:00
@046569 #15
1 、显卡这种东西基本就不存在损坏问题,纠结保修除了减少可选项以外毫无意义。我服务器上没改散热的 3090 之前闲着的时候就一直在挖矿,直到 ETH2.0 之后才停,挖矿期间显存长期保持 110 度拉满,比矿场环境还恶劣,然而到现在依然在稳定运行。

2 、拆分模型带来的性能损失也没有用图大显存而用苹果芯片带来的多,NVIDIA GPU 的方案依然是最优解。

3 、苹果芯片目前的能力过弱,显然不会有人正经用,更不会成为主流,怎么可能会有人拿出来做出租的生意...想找到基于苹果设备的测试案例就更是海底捞针了。

4 、大公司的模型再怎么更新,也依然可以通过 Prompt 引导学会特定方法,甚至是遵循复杂的规则。这种事情对于当下的大模型而言都并不是什么问题,在未来随着 Token 上限的提高,就更不会是问题了。

5 、随着模型被喂的数据越来越多,微调的需求只会越来越少。而且现在的 GPT4 都已经能通过 Prompt 引导做到训练数据中大概率没有的事了(正常让它说都完全说不出正确信息的专业领域),除了信息量大且与其他领域没有共通点的情况以外,只要 Token 够用就不需要微调。

6 、担心泄密的只会是企业级场景,信息量大、使用人数多无法面面俱到;个人场景下不存在这个问题,只需要做个内容替换处理就能解决。

7 、实测再怎么精度下降也比开源模型强,完全没法比...换句话来说,如果开源模型有能力做到与商业模型(如当下的 GPT4 )同等的水平,那做出这个开源模型的厂商为什么不拿去赚钱?用爱发不了电啊。

8 、目前的大模型市场根本就不是私有云( NAS )跟公有云的情况,你这个例子是错误的。之所以私有云能始终占有一席之地,本质原因是:在自建的情况下,只要花了足够多的钱就能在自己的一亩三分地上得到足够好的体验,而用公有云要做到同样好的体验需要花费远超自建数倍甚至数十倍、数百倍的成本才能做到。

现在的开源模型在基本的能力上就完全没法跟商业模型比,商业模型已经跨过了“可用”的门槛,开源模型还处于上一阶段的水平,只是部分优化过的样例看起来还行而已,实际一上强度就拉稀。在这种情况下,你花再多的钱也达不到足够好的体验,都没有可比性。

9 、小工作室、个人开发者做产品要追求速度(除非不打算活了),Mac 更不可能作为可选项,无论是买二手卡还是云服务,都比用 Mac 实际。更何况小工作室、个人开发者程度的需求,通过设计 Prompt 就能解决,基于商用模型做的效果和效率只会更好。

10 、在需要砸钱发展的领域,没钱的公司本来就不配参与,被少数公司垄断是非常正常的现象,这就是现实。而少数公司只要想赚钱,最后自然而然地就会普惠大众,自然也就会让每个人变得更强大,不存在悲哀。(基于 OpenAI 的接口出来的各种套皮服务就是很典型的例子)

11 、行业的应用前景跟个人场景毫无关系,而且企业级的场景在大语言模型能力不足的情况下,也只会将其用于合适的简单应用,或者使用其他专用模型代替。

12 、不需要加入数据集进行测试,基底模型的能力不行就是不行,这是我实际体验了各路开源模型后得出的结论。LLaMA 在这几个月里被搞出来的微调版本这么多,个个都是动不动就被人吹成能追上 GPT3.5 甚至 GPT4 的水平,甚至还有自己在文章里就吹能部分达到 GPT4 水平的,但又有哪个能真的达到?都是一上强度立马拉稀。

13 、我不清楚你是什么情况,但我是在 ChatGPT ( GPT3.5 )刚出来的时候就已经将其融入到了日常的工作和生活中实际使用,在 GPT4 出来之后更是进一步做了很多自用的、包含复杂逻辑的省事工具,也用其解决了很多麻烦事,并且在 OpenAI 大规模封号后也测试过了各路开源模型,家里的机柜更是早在 ChatGPT 出来前就预留了 GPU 服务器的位置。我觉得我应该已经比除了本身就在 AI 行业内的人以外的绝大多数人都重视模型的使用、用足够 Open 的眼光看待新事物了,完全有资格挑刺。

14 、你似乎又理解错了什么,这家名为“开源宇宙 GPU 服务器工厂”的淘宝店并没有所谓的“魔改 NVLink”,也并没有宣称自己有所谓的“魔改 NVLink”,只是个卖常规多卡 GPU 服务器的商家而已。不过他们的定制服务器机箱倒是有点意思,提供了一种非品牌服务器的机架式多卡方案。
046569
2023-07-25 11:12:45 +08:00
@locoz
1. 我坏了两块显卡.一块换新,另一块还杳无音信.所以我关注保修.电商的返修率也能说明问题.
2. 在不超过预算的前提下,如何为客户组装能同时跑两个甚至三个 70B 模型的全新英伟达硬件?有配置推荐么?
3. 客户是十几人的小律所,接案律师疲于奔命,想利用 AI 快速筛选难以胜诉的官司.出于合规性要求,必须离线部署.没办法选择商业闭源模型.即便是开源模型在很多领域无法与闭源相媲美,但只要能胜任工作,我觉得就是好模型.类似的,还有医院使用的心电图 AI ,可筛出极早期异常 Q 波,也需要本地部署.
4. 现阶段,依托 openAI 的国内公司,都不合法.很多公司应该也都收到了通知:禁止设立 openAI 与 chatGPT 的镜像站.
5. 个人考虑隐私选择本地不是很正常的需求么.换句话说,我自己开心 YY 一下存本地不是正好.出个新模型测试一下,本地跑跑也很方便呀.
6. 你实际的体验是如何体验的?测试环境和测试方法是什么?又是如何评分的?与目前的测试集相比,有哪些优势?不能因为个人喜好,就推翻行业内的通行做法吧?
7. 你做的很多自用的、包含复杂逻辑的省事工具,解决了什么问题,又是如何解决的?能举个例子便于理解吗?
8. 店铺是朋友推荐,我并未亲自查看,如果误导他人,并非出自本意,深感抱歉.
jjxtrotter
2023-07-25 11:59:04 +08:00
这个视频 128G 内存 mac studio
<amp-youtube data-videoid="UsfmqTb2NVY" layout="responsive" width="480" height="270"></amp-youtube>
locoz
2023-07-25 14:15:52 +08:00
@046569 #17
1 、个体现象说明不了什么,我认识的几个专业挖矿的,小量级的也都是至少几十张卡的水平,还有个矿老板级别那种在仓库里摆了几货架挖的,并且也都是新卡老卡都有,就没见哪个说卡坏了的。如果那么容易坏,那他们这个数量级怎么说都得出点坏的,但现实是根本没有。

2 、又要“全新”、又要高配、又要便宜,梦里啥都有,建议去梦里找。

3 、你说的这两种情况都是专用模型就能解决的事情,以往又不是没有做这种事的,哪个非要在通用大模型基础上做的了...而且像律师这种场景,把难以胜诉的官司的特点列举出来,用 Prompt 也能解决,合规问题应该也可以通过脱敏解决,实在不行也可以先用本地小模型提取关键信息再做处理。单纯这种程度的需求,想绕过离线部署有太多方法了。

4 、禁止设立镜像站跟使用服务并没有什么关系,自己内部使用是没问题的,两种情况的性质不同。

5 、“我自己开心 YY 一下存本地不是正好.出个新模型测试一下,本地跑跑也很方便呀.”这叫玩,不是实际需求,不存在可持续性。而且隐私问题前面已经说过了,个人场景下不存在这问题,又不是文件存储需求那种无法避免需要提供完整数据,且只要对数据进行处理就会影响体验的情况。

6 、很简单,直接把 GPT4 能正常输出的、具有复杂逻辑的要求丢给不同的模型,由于内容高度定制化,基本不存在同样的训练数据,可以有效测试出模型最基本的意图理解、逻辑、泛化等能力。

然而事实上现在的开源模型在我测试时,绝大多数情况都无法进入评分的阶段,直接就可以 0 分出局,都是要么胡言乱语、要么无视要求、要么自创要求、要么输出了一堆空话之类的情况。说白了就是只要不简化要求就根本做不到正常输出,而简化了要求又没有必要用 AI 来解决了,所以自然就只存在“可用”和“不可用”两个档次,不存在评分也不需要评分,再怎么评也都是不可用。

少数几个要求由于输入内容和输出要求的规律都比较常规(比如在具有复杂数据内容的情况下,将常规数据结构转成另一种常规数据结构),所以部分模型(如 Guanaco )在明显针对性训练过的情况下还能输出基本符合期望的结果。但这部分模型如果一上强度(比如处理自定义数据结构的数据),依然是无法正常输出,典型的情况是样例贴脸上了都不会遵循着写,莫名其妙按着自己的格式在输出。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/958929

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX