跑不太大的模型, 比如 Llama 3.1 8B
这个模型 16G 内存的丐版也能跑起来。
     2 
                    
                    234ygg      360 天前 
                    
                    本地跑的全是弱智模型。。做个翻译都嫌蠢 
                第三方 gpt api 还不够便宜?  | 
            
     5 
                    
                    slayer      360 天前 
                    
                    @berchtesgaden #1 这个不错,现在 mac 应该在 lm studio 下跑了转换的 mlx 模型,貌似 ollama 还不支持 mlx 格式的。 
                 | 
            
     6 
                    
                    Gotchaaa      360 天前 
                    
                    我 M1 pro 都能跑 
                 | 
            
     7 
                    
                    piero66      360 天前 via Android 
                    
                    8b 太蠢了 
                 | 
            
     8 
                    
                    shinecurve      360 天前 
                    
                    原本计划买 M4 Max + 128G 跑 ollama 的,后来从 llama 70b 的能力、算力成本和实际应用场景考虑我最终放弃了,感觉还需在在等两年,我认为目前最好的选择还是 ChatGPT 。 
                希望对你能有些帮助。  | 
            
     9 
                    
                    234ygg      360 天前    我已经懒得试了,最后一次跑本地模型是几个月前 gemini27b ,远不及 gpt3.5 ,勉强能干个不涉及较多专业词汇的简单翻译,功耗在我的 4090 上高达 250W 。。但凡问点其他问题,我都不说回答的对不对了,甚至不能持续稳定保持中文回答。再早几个月的 llama3 更是一坨。 
                llama3.2 11b 充其量也就那点水平,合理推断也是个弱智 gpt4o 的 apt 都那么便宜了,更不要说 3.5 了,不要骗我浪费电 听显卡电感箫叫了  | 
            
     10 
                    
                    yinmin      360 天前 via iPhone 
                    
                    13:20 m4max 跑大模型的评测 
                 | 
            
     11 
                    
                    beginor   OP  | 
            
     12 
                    
                    dilidilid      360 天前 via iPhone 
                    
                    真的没啥意思,我一直不能理解本地跑大模型推断的意义所在 
                 | 
            
     13 
                    
                    tanranran      360 天前     | 
            
     14 
                    
                    spike0100      359 天前 via iPhone 
                    
                    inter 问个问题 10 秒回答完,m4pro 只要一秒。 
                 | 
            
     15 
                    
                    spike0100      359 天前 via iPhone 
                    
                    问题是:推荐一种基于标记的存活预测模型。答案在 200 字左右。 
                 | 
            
     16 
                    
                    mike163      359 天前 via Android 
                    
                    用 mlx 是不是比 ollama 性能更好? 
                 | 
            
     17 
                    
                    mkyos      358 天前 
                    
                    除非你能花几万块买英伟达的显卡,否则就别琢磨本地大模型了,还是使用商业模型吧。随着发展,商业模型肯定会各种第三方定制应用的软件或服务,以及,价格大大降低。 
                 | 
            
     18 
                    
                    volvo007      358 天前 
                    
                    看来离手里的 A100 还是有不小的差距,即使换 M4 ,在我这里还是做一个终端用比较合适了 
                 | 
            
     19 
                    
                    beginor   OP @mike163 性能上应该不会有太大的差距,llama.cpp/ollama 胜在支持更多的系统和加速器,目前对多模态模型支持比较弱,mlx M 芯片专用, 多模态 (借助 mlx-vlm ) 支持稍微好一些 。 
                不过两者都不能用上 M 芯片的 NPU 加速。  | 
            
     21 
                    
                    volvo007      358 天前 
                    
                    @beginor 受限于国内买不到正规渠道的 H100 ,可能有合规风险,现在还不敢上…… 不知道明年租的那个 H800 x 8 的计算节点能不能搞下来。另外 A100 如果要建模的话就无能为力了,所以现在还是不得不多端操作,A100 服务器、4090 台式、mbp 主打移动和查阅…… 
                 | 
            
     23 
                    
                    volvo007      358 天前 
                    
                    @beginor 公款消费是这样的 lol ,我们作为零部件供应商会测试一些物料兼容性,但是硬件到手没人会玩,就便宜我了。闲着也是闲着,我来搞点东西还能加点有效负载让测试更贴近一般使用情况 
                 | 
            
     24 
                    
                    hongjic93      317 天前 
                    
                    本地模型意义很大,你可以给他所有本地传感器和资料的访问权限,不能理解本地模型没有意义的说法。以后不只是厂商 token 会变便宜,模型部署门槛和消费算力成本一定降低得更快,大模型和小模型的智能差距缩短得会很快。 
                 | 
            
     25 
                    
                    ohblue      247 天前 
                    
                    丐版 16G 可以跑 7B 模型(20 几 Tokens/秒),也就只能当玩具了。没有特殊需求还是别玩本地大模型,老老实实用 API 
                 |