推荐各位利用 ollama 在自有电脑上跑大模型,使用非常方便

248 天前
 keepRun

ollama 用法跟 docker 很类似,指定 run 哪个模型就会自动去下载使用。

我用我的 1650 笔记本允许 mistral ,跑起来速度还行。

模型列表: https://ollama.com/library

方法: 建议采用 wsl2 运行 ollama ,安装 cuda 后即可利用显卡跑 ollama ,否则会利用 cpu 跑大模型。

wsl2 安装 cuda 直接用我这个链接即可: https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=WSL-Ubuntu&target_version=2.0&target_type=deb_local

7200 次点击
所在节点    程序员
24 条回复
cwyalpha
248 天前
1650 显存多少?能跑什么量级的模型?
ahsjs
248 天前
嗯嗯,我也用的这个,只能跑小模型,谷歌的 gemma 之类的
o562dsRcFqYl375i
248 天前
确实很方便。至于能跑多大的模型主要看机器的硬件配置吧,跟 ollama 这个工具应该没多大关系
ChaoYoung
248 天前
同类 LM Studio 可视化相当不错
keepRun
248 天前
@cwyalpha 显存 4g ,不过 win11 会自动把显存和内存同时用上,所以即使跑 7B 模型也可以,只是速度会慢些
Rrrrrr
248 天前
Macbool air M2 可以跑吗,给个教程
panxiuqing
248 天前
Mac 上用 m1 很快。
l4ever
248 天前
早就试过, 没有好用的模型. 有更好的推荐吗?
PowerDi
248 天前
@keepRun 如果是调试大模型,会把内存和显存都用上吗? pytorch
keepRun
248 天前
@PowerDi 应该可以把,这个功能是显卡驱动支持的,系统层面就支持了
supergeek1
248 天前
可以,m1 pro 跑个小模型速度很快
monsterx2a
247 天前
它和 docker 啥关系? 有啥优势吗?
kwater
247 天前
ollama 安装后, 跑 17g 模型在 m1 还行,下载速度飞快,
加载首次等待比较久。

ollama run gemma:7b-instruct-fp16
可以自己开多会话


在 内存紧张就选小的
ollama run gemma:7b
dacapoday
247 天前
主要是它底层的 ggml 库的功劳,作者是个肝帝,移植了大量 开源的 llm 和 权重
keepRun
247 天前
@monsterx2a 跟 docker 没关系,只是使用方式像 docker
McVander
247 天前
m2 max 运行 gemma:7b 速度飞快
CyouYamato
247 天前
手里有台闲置的 4060,目前测试了 gemma 7B ,2B,llama2 。目前来说,2B 快又还不错。搭配 chatbox 还不错。
kaichen
247 天前
@Rrrrrr #6

https://lmstudio.ai/ 下载个客户端,搜索对应大小的模型( apple silicon 是内存的 3/4 可以作为显存),可以先搜索 qwen gguf 找个合适大小的玩玩看

然后可以直接对话,或者启动一个与 openai api 兼容的 api server
cyp0633
247 天前
怎么在我的 1650 笔记本上就用 CPU 跑 mistral-7b...
weilongs
247 天前
目前在用 m2 pro 跑. 客户端本地使用 chat box. 后面考虑是否搞个 Mac 盒子 穿透玩一下.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1019170

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX