Llama 2 可以在本地 Mac 运行了

murmur

2023-07-23 09:31:12 +08:00

大语言最重要的是上下文，这才是堆硬件的意义，没有上下文的大语言还比不上 google ，不支持中文，上下文几乎没有，似乎还不如 chatglm 12g 的表现，而且你这资源都占了 40g 了

3dward

2023-07-23 09:41:51 +08:00

@murmur 支持上下文，中文也有支持只是不太好。具体我也不是很懂，只是本地做了个实验

locoz

2023-07-23 10:09:54 +08:00

实测 70B 版本干活的水平也就比之前稍微好点，跟 GPT4 还是差太多了，依然是只有聊天、知识库问答之类的简单场景适合用，还是处于玩具的水平。在这前提下能不能运行到本地设备的意义都不大了，缺乏实用性。

gaobh

2023-07-23 10:18:13 +08:00

试下这个 https://huggingface.co/spaces/LinkSoul/Chinese-Llama-2-7b

046569

2023-07-23 10:37:03 +08:00

@locoz
方便分享测试数据么?
什么设备上测的?显存占用和速度( token/s )如何?
想升级设备.

locoz

2023-07-23 12:34:40 +08:00

@046569 #5 直接在 huggingface 上测的，资源占用情况不清楚，你可以租云算力跑一下试试

Jirajine

2023-07-23 13:31:49 +08:00

效果差就本地运行意义不大？本地运行最大的意义是可以自由使用，使用量、隐私数据、绕过法律道德伦理审查。

lingo34

2023-07-23 16:47:56 +08:00

不只可以在本地 mac 运行，连把道德枷锁去了的 uncensored 版都出来了。
这些家伙是真的快。

046569

2023-07-23 16:55:18 +08:00

@locoz
云计算参考意义不大,那些服务器个人购买还是太贵了.我想放在本地运行.感谢回复.

再蹲一会看看有没有类似的数据.

locoz

2023-07-24 00:19:50 +08:00

@046569 #8 就算你不考虑用服务器+专业卡，那些服务商里也有租消费级硬件的，国内这块市场很成熟了，主流选择随便一搜就能找到

046569

2023-07-24 10:03:33 +08:00

@locoz
算力云这些我也用过.之前炼丹就是在上面跑的.主打性价比.
但这些方案不太适合个人 **本地** 推理.

我调查过相关方案:

1. 3090 * 8 + NVLink ,保修堪忧,价格适中;
2. 4090 * 8 + 魔改 NVLink,淘宝有商家在做.可得到最高的推理性能.最贵.
3. Mac Studio 192G,大显存.最便宜但慢.

如果预算不足就只能选 Mac 了...

wanghui22718

2023-07-24 10:15:13 +08:00

@046569 4090 nvlink ？ tb 没找到相关信息，求指教，感谢

locoz

2023-07-24 11:38:44 +08:00

@046569 #10 你似乎理解错了什么，我的意思是你如果想知道显存占用和速度( token/s )如何，完全可以租云算力自己测试，想用什么卡就租什么卡。

另外就目前这玩具水平来说，个人场景下的本地推理属实有点伪需求...不过你开心就好。

locoz

2023-07-24 11:39:48 +08:00

@046569 #10 你说的 4090+魔改 NVLink 指的具体是什么样的操作？我也没搜到相关的商家

ShadowPower

2023-07-24 12:02:50 +08:00

本地模型目前还是不实用。我平时主要用来生成代码和重构代码，还有翻译大量文本。
只有 ChatGPT 3.5 和 Claude 达到了能用的程度。

而且不少代码也是一次性使用/开源使用，完全不会涉及个人信息……
所以那两家免费服务已经完全满足需求了。

公司里会用开源模型来做一些自然语言处理任务。不过硬件也不需要自己操心，用的 NVIDIA 的专业卡……

046569

2023-07-24 14:33:15 +08:00

@locoz
问题是五万以内预算,兼顾大显存与保修,除了 Mac 就是 4090 * 2( 捡垃圾 3090 * 3 ).
不想采用 NVIDIA 的方案一是显存较小( 44G VS 192G ),需要拆分模型;二是作为一个臭打游戏的来说,老黄的吃相,影响食欲.
所以我更期待看到有关 Mac 的测试,似乎没看到各家的算力市场中有提供.如有请告知.根据我目前的测试,这里是有些坑的.多看看可以避坑.

大模型本地部署是有着很强的优势的,比如:

1. 不会因为大公司的模型一更新,你学会的方法就不能用了.
2. 可以进行训练微调,获取某个领域的专业技能.这点可能随着技术发展会被湮没.
3. 可以离线部署,不会泄密.
4. 对齐导致的精度下降等等.

简单的说,本地部署 VS 大公司产品可以理解成 NAS 和公有云网盘之争.私人网盘无论稳定性还是功能性都远远不如公有云,但很多人依然选择自建.我相信每个掏出真金白银的人都有充足的理由选择本地部署.从这个意义上说, Mac Studio 更适合小型工作室或者个人开发者. 不是所有的开发者都能拿出 A100 * 32,但他们仍然应该有资格入场,这是一种平等.

科技的进步如果让生产力垄断在少数公司手里,而不是让每个人变的更强大,这是何等悲哀的景象.

依我看:
用个人用户体验去判断某个行业的应用前景,未免武断了.至少也应该使用数据集进行测试, zero shot 能否满足需求? few shot 呢?Lora 表现如何?
现阶段,重视模型的使用胜于挑刺.采用更 open 的眼光看待新事物,保持对世界的好奇心,可以证明我还没老.

@wanghui22718
店铺叫开源宇宙 GPU 服务器工厂.

PS: 本人与该店铺无任何利益相关.

locoz

2023-07-24 22:22:02 +08:00

@046569 #15
1 、显卡这种东西基本就不存在损坏问题，纠结保修除了减少可选项以外毫无意义。我服务器上没改散热的 3090 之前闲着的时候就一直在挖矿，直到 ETH2.0 之后才停，挖矿期间显存长期保持 110 度拉满，比矿场环境还恶劣，然而到现在依然在稳定运行。

2 、拆分模型带来的性能损失也没有用图大显存而用苹果芯片带来的多，NVIDIA GPU 的方案依然是最优解。

3 、苹果芯片目前的能力过弱，显然不会有人正经用，更不会成为主流，怎么可能会有人拿出来做出租的生意...想找到基于苹果设备的测试案例就更是海底捞针了。

4 、大公司的模型再怎么更新，也依然可以通过 Prompt 引导学会特定方法，甚至是遵循复杂的规则。这种事情对于当下的大模型而言都并不是什么问题，在未来随着 Token 上限的提高，就更不会是问题了。

5 、随着模型被喂的数据越来越多，微调的需求只会越来越少。而且现在的 GPT4 都已经能通过 Prompt 引导做到训练数据中大概率没有的事了（正常让它说都完全说不出正确信息的专业领域），除了信息量大且与其他领域没有共通点的情况以外，只要 Token 够用就不需要微调。

6 、担心泄密的只会是企业级场景，信息量大、使用人数多无法面面俱到；个人场景下不存在这个问题，只需要做个内容替换处理就能解决。

7 、实测再怎么精度下降也比开源模型强，完全没法比...换句话来说，如果开源模型有能力做到与商业模型（如当下的 GPT4 ）同等的水平，那做出这个开源模型的厂商为什么不拿去赚钱？用爱发不了电啊。

8 、目前的大模型市场根本就不是私有云（ NAS ）跟公有云的情况，你这个例子是错误的。之所以私有云能始终占有一席之地，本质原因是：在自建的情况下，只要花了足够多的钱就能在自己的一亩三分地上得到足够好的体验，而用公有云要做到同样好的体验需要花费远超自建数倍甚至数十倍、数百倍的成本才能做到。

现在的开源模型在基本的能力上就完全没法跟商业模型比，商业模型已经跨过了“可用”的门槛，开源模型还处于上一阶段的水平，只是部分优化过的样例看起来还行而已，实际一上强度就拉稀。在这种情况下，你花再多的钱也达不到足够好的体验，都没有可比性。

9 、小工作室、个人开发者做产品要追求速度（除非不打算活了），Mac 更不可能作为可选项，无论是买二手卡还是云服务，都比用 Mac 实际。更何况小工作室、个人开发者程度的需求，通过设计 Prompt 就能解决，基于商用模型做的效果和效率只会更好。

10 、在需要砸钱发展的领域，没钱的公司本来就不配参与，被少数公司垄断是非常正常的现象，这就是现实。而少数公司只要想赚钱，最后自然而然地就会普惠大众，自然也就会让每个人变得更强大，不存在悲哀。（基于 OpenAI 的接口出来的各种套皮服务就是很典型的例子）

11 、行业的应用前景跟个人场景毫无关系，而且企业级的场景在大语言模型能力不足的情况下，也只会将其用于合适的简单应用，或者使用其他专用模型代替。

12 、不需要加入数据集进行测试，基底模型的能力不行就是不行，这是我实际体验了各路开源模型后得出的结论。LLaMA 在这几个月里被搞出来的微调版本这么多，个个都是动不动就被人吹成能追上 GPT3.5 甚至 GPT4 的水平，甚至还有自己在文章里就吹能部分达到 GPT4 水平的，但又有哪个能真的达到？都是一上强度立马拉稀。

13 、我不清楚你是什么情况，但我是在 ChatGPT （ GPT3.5 ）刚出来的时候就已经将其融入到了日常的工作和生活中实际使用，在 GPT4 出来之后更是进一步做了很多自用的、包含复杂逻辑的省事工具，也用其解决了很多麻烦事，并且在 OpenAI 大规模封号后也测试过了各路开源模型，家里的机柜更是早在 ChatGPT 出来前就预留了 GPU 服务器的位置。我觉得我应该已经比除了本身就在 AI 行业内的人以外的绝大多数人都重视模型的使用、用足够 Open 的眼光看待新事物了，完全有资格挑刺。

14 、你似乎又理解错了什么，这家名为“开源宇宙 GPU 服务器工厂”的淘宝店并没有所谓的“魔改 NVLink”，也并没有宣称自己有所谓的“魔改 NVLink”，只是个卖常规多卡 GPU 服务器的商家而已。不过他们的定制服务器机箱倒是有点意思，提供了一种非品牌服务器的机架式多卡方案。

046569

2023-07-25 11:12:45 +08:00

@locoz
1. 我坏了两块显卡.一块换新,另一块还杳无音信.所以我关注保修.电商的返修率也能说明问题.
2. 在不超过预算的前提下,如何为客户组装能同时跑两个甚至三个 70B 模型的全新英伟达硬件?有配置推荐么?
3. 客户是十几人的小律所,接案律师疲于奔命,想利用 AI 快速筛选难以胜诉的官司.出于合规性要求,必须离线部署.没办法选择商业闭源模型.即便是开源模型在很多领域无法与闭源相媲美,但只要能胜任工作,我觉得就是好模型.类似的,还有医院使用的心电图 AI ,可筛出极早期异常 Q 波,也需要本地部署.
4. 现阶段,依托 openAI 的国内公司,都不合法.很多公司应该也都收到了通知:禁止设立 openAI 与 chatGPT 的镜像站.
5. 个人考虑隐私选择本地不是很正常的需求么.换句话说,我自己开心 YY 一下存本地不是正好.出个新模型测试一下,本地跑跑也很方便呀.
6. 你实际的体验是如何体验的?测试环境和测试方法是什么?又是如何评分的?与目前的测试集相比,有哪些优势?不能因为个人喜好,就推翻行业内的通行做法吧?
7. 你做的很多自用的、包含复杂逻辑的省事工具,解决了什么问题,又是如何解决的?能举个例子便于理解吗?
8. 店铺是朋友推荐,我并未亲自查看,如果误导他人,并非出自本意,深感抱歉.

jjxtrotter

2023-07-25 11:59:04 +08:00

这个视频 128G 内存 mac studio
<amp-youtube data-videoid="UsfmqTb2NVY" layout="responsive" width="480" height="270"></amp-youtube>

locoz

2023-07-25 14:15:52 +08:00

@046569 #17
1 、个体现象说明不了什么，我认识的几个专业挖矿的，小量级的也都是至少几十张卡的水平，还有个矿老板级别那种在仓库里摆了几货架挖的，并且也都是新卡老卡都有，就没见哪个说卡坏了的。如果那么容易坏，那他们这个数量级怎么说都得出点坏的，但现实是根本没有。

2 、又要“全新”、又要高配、又要便宜，梦里啥都有，建议去梦里找。

3 、你说的这两种情况都是专用模型就能解决的事情，以往又不是没有做这种事的，哪个非要在通用大模型基础上做的了...而且像律师这种场景，把难以胜诉的官司的特点列举出来，用 Prompt 也能解决，合规问题应该也可以通过脱敏解决，实在不行也可以先用本地小模型提取关键信息再做处理。单纯这种程度的需求，想绕过离线部署有太多方法了。

4 、禁止设立镜像站跟使用服务并没有什么关系，自己内部使用是没问题的，两种情况的性质不同。

5 、“我自己开心 YY 一下存本地不是正好.出个新模型测试一下,本地跑跑也很方便呀.”这叫玩，不是实际需求，不存在可持续性。而且隐私问题前面已经说过了，个人场景下不存在这问题，又不是文件存储需求那种无法避免需要提供完整数据，且只要对数据进行处理就会影响体验的情况。

6 、很简单，直接把 GPT4 能正常输出的、具有复杂逻辑的要求丢给不同的模型，由于内容高度定制化，基本不存在同样的训练数据，可以有效测试出模型最基本的意图理解、逻辑、泛化等能力。

然而事实上现在的开源模型在我测试时，绝大多数情况都无法进入评分的阶段，直接就可以 0 分出局，都是要么胡言乱语、要么无视要求、要么自创要求、要么输出了一堆空话之类的情况。说白了就是只要不简化要求就根本做不到正常输出，而简化了要求又没有必要用 AI 来解决了，所以自然就只存在“可用”和“不可用”两个档次，不存在评分也不需要评分，再怎么评也都是不可用。

少数几个要求由于输入内容和输出要求的规律都比较常规（比如在具有复杂数据内容的情况下，将常规数据结构转成另一种常规数据结构），所以部分模型（如 Guanaco ）在明显针对性训练过的情况下还能输出基本符合期望的结果。但这部分模型如果一上强度（比如处理自定义数据结构的数据），依然是无法正常输出，典型的情况是样例贴脸上了都不会遵循着写，莫名其妙按着自己的格式在输出。