openai 博客: https://openai.com/zh-Hans-CN/index/introducing-gpt-oss/
ollama 最新版本 0.11 也支持使用 gpt-oss-120b 和 gpt-oss-20b 进行网页搜索
|  |      1Fike      86 天前 via iPhone 用 m1pro 16g 内存试了一下没运行起来 | 
|  |      2perfectlife OP 16g 不够,20b 运行就需要 16g 显存了 ➜ ~ ollama ps NAME ID SIZE PROCESSOR CONTEXT UNTIL gpt-oss:20b f2b8351c629c 18 GB 100% GPU 16384 4 minutes from now @Fike | 
|  |      3perfectlife OP @perfectlife 尴尬 18g | 
|      4mumbler      86 天前 ollama 上的 gpt oss 20b 只要 14G 内存就能跑,总共有 24G 内存就行,激活参数 3B ,cpu 应该也能 10t/s 以上速度 | 
|      6wwhc      86 天前 llama.cpp 运行 gpt-oss-20b-mxfp4 生成回答的速度比 Qwen3 30B 快一倍,一般的电脑就完全可用,但生成回答的质量略不如 Qwen3 30B ,如果内存足够大,gpt-oss-120b-mxfp4 的速度也只比 Qwen3 30B 慢一点,但生成回答的质量要高。但 openai 的这两个模型就像是开源模型的初学者,仍不成熟,实际上不如 Qwen 好用 | 
|  |      8perfectlife OP @wwhc 感觉 20b 速度是很惊喜,20b 的模型回答速度比 deepseek-r1:7b 都快,120b 的看别人用 4*2080ti 22gb 跑 内存用了 99g  我 mba 跑了一下 20b 速度还行 total duration: 1m55.383030709s load duration: 67.649875ms prompt eval count: 135 token(s) prompt eval duration: 1.439831542s prompt eval rate: 93.76 tokens/s eval count: 983 token(s) eval duration: 1m53.836651375s eval rate: 8.64 tokens/s | 
|  |      9sakeven      86 天前 openai web 居然支持中文了 | 
|  |      10BingoXuan      86 天前 120B 的质量勉强可用,20B 回答不太行 | 
|  |      11haodingzan      86 天前 掏出了吃灰的 NUC9 ,i7-9850H ,32G 内存,无独显,20B 能跑,内存占用 15G 。 total duration: 28.0584624s load duration: 69.4942ms prompt eval count: 81 token(s) prompt eval duration: 2.1671938s prompt eval rate: 37.38 tokens/s eval count: 94 token(s) eval duration: 25.8144678s eval rate: 3.64 tokens/s | 
|  |      12spike0100      86 天前 | 
|      13wwhc      86 天前 背唐诗宋词 Qwen3 2507 版很强,openai_gpt-oss-20b-MXFP4 在 Epyc 7532 8 通道 ddr4 系统上的速度是: prompt eval time = 113.29 ms / 14 tokens ( 8.09 ms per token, 123.58 tokens per second) eval time = 12243.52 ms / 466 tokens ( 26.27 ms per token, 38.06 tokens per second) total time = 12356.81 ms / 480 tokens | 
|  |      15perfectlife OP | 
|  |      16liu731 PRO 跑了下 20b ,主观感受比 llama 和 mistral 强 | 
|      17cloverzrg2      86 天前 @perfectlife #8 速度快是因为,deepseek-r1:7b 激活参数是 7b ,gpt-oss-20b 激活参数 3.6b https://openai.com/zh-Hans-CN/index/introducing-gpt-oss/ | 
|      18YsHaNg      85 天前 via iPhone @wwhc 我用 ollama 反而感觉 20b 不如 qwen3:30b 可能我用老卡 mxfp4 上下文预分配很傻 16k 上下文 graph cache 全分配到 vram 上 weights 只能 offload7 层 基本全是 cpu 在跑 相比起来 qwen3 架构高效很多 offload 超过 1/3 层数 gpu 计算占比大很多 输出质量没太大感觉 毕竟同级别还有 qwen3:30b-a6b 这种东西存在 | 
|  |      19iorilu      84 天前 能不能把 gpt3.5 开源, 本地跑都有价值阿 | 
|      20cloverzrg2      82 天前 @iorilu #19 gpt3.5 是千亿参数你本地跑不起来,模型比较落后比不上 qwen3-30b ,对个人没有意义. 其他公司作思路参考倒是可以 https://llm-stats.com/models/compare/gpt-3.5-turbo-0125-vs-qwen3-30b-a3b |