推荐各位利用 ollama 在自有电脑上跑大模型，使用非常方便

355 天前

keepRun

ollama 用法跟 docker 很类似，指定 run 哪个模型就会自动去下载使用。

我用我的 1650 笔记本允许 mistral ，跑起来速度还行。

方法：建议采用 wsl2 运行 ollama ，安装 cuda 后即可利用显卡跑 ollama ，否则会利用 cpu 跑大模型。

wsl2 安装 cuda 直接用我这个链接即可： https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=WSL-Ubuntu&target_version=2.0&target_type=deb_local

8580 次点击

所在节点

Local LLM

24 条回复

cwyalpha

355 天前

1650 显存多少？能跑什么量级的模型？

ahsjs

355 天前

嗯嗯，我也用的这个，只能跑小模型，谷歌的 gemma 之类的

o562dsRcFqYl375i

355 天前

确实很方便。至于能跑多大的模型主要看机器的硬件配置吧，跟 ollama 这个工具应该没多大关系

ChaoYoung

355 天前

同类 LM Studio 可视化相当不错

keepRun

355 天前

@cwyalpha 显存 4g ，不过 win11 会自动把显存和内存同时用上，所以即使跑 7B 模型也可以，只是速度会慢些

Rrrrrr

355 天前

Macbool air M2 可以跑吗，给个教程

panxiuqing

355 天前

Mac 上用 m1 很快。

l4ever

355 天前

早就试过, 没有好用的模型. 有更好的推荐吗?

PowerDi

355 天前

@keepRun 如果是调试大模型，会把内存和显存都用上吗？ pytorch

keepRun

355 天前

@PowerDi 应该可以把，这个功能是显卡驱动支持的，系统层面就支持了

supergeek1

355 天前

可以，m1 pro 跑个小模型速度很快

monsterx2a

355 天前

它和 docker 啥关系？有啥优势吗？

kwater

355 天前

ollama 安装后，跑 17g 模型在 m1 还行，下载速度飞快，
加载首次等待比较久。

ollama run gemma:7b-instruct-fp16
可以自己开多会话

在内存紧张就选小的
ollama run gemma:7b

dacapoday

355 天前

主要是它底层的 ggml 库的功劳，作者是个肝帝，移植了大量开源的 llm 和权重

keepRun

355 天前

@monsterx2a 跟 docker 没关系，只是使用方式像 docker

McVander

355 天前

m2 max 运行 gemma:7b 速度飞快

CyouYamato

355 天前

手里有台闲置的 4060,目前测试了 gemma 7B ,2B,llama2 。目前来说，2B 快又还不错。搭配 chatbox 还不错。

kaichen

355 天前

@Rrrrrr #6

到 https://lmstudio.ai/ 下载个客户端，搜索对应大小的模型（ apple silicon 是内存的 3/4 可以作为显存），可以先搜索 qwen gguf 找个合适大小的玩玩看

然后可以直接对话，或者启动一个与 openai api 兼容的 api server

cyp0633

354 天前

怎么在我的 1650 笔记本上就用 CPU 跑 mistral-7b...

weilongs

354 天前

目前在用 m2 pro 跑. 客户端本地使用 chat box. 后面考虑是否搞个 Mac 盒子穿透玩一下.

第 1 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1019170

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.