关于手机/车机侧开发语音助手，本地部署 AI 小模型

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 185 天前的主题，其中的信息可能已经有所发展或是发生改变。

我想做一个语音助手，现在有两种场景，联网和断网。断网下我想部署一个端侧的小模型处理我的指令，不知道现在有哪些开源模型可以使用？

语音助手

端侧小模型

开源模型

18 条回复 • 2025-09-26 17:00:24 +08:00

coefu

2025 年 9 月 25 日

想一想就行了，目前你这个想法整个业界也没有什么 80 分的方案。

Solix

2025 年 9 月 25 日

？？？别闹了，7b 全精度显存需求：大约 28~32 G ，量化 8/16G 能运行，然后跑起来有啥用，它能搞指令遵循还是结构化？

Yasuke

2025 年 9 月 25 日

@Solix 不用很复杂，断网环境下能识别到播放音乐、打开车窗这类简单指令就可以，但准确度可能要高一点

play78

2025 年 9 月 25 日

如果只是固定单词指令，现在 AIOT 芯片和方案就有现成的。便宜的几毛钱的芯片就内置了。淘宝搜索“LED 语音灯”，准确率比大模型准非常多。

Yasuke

2025 年 9 月 25 日

@play78 感谢，我了解一下

jacketma

2025 年 9 月 25 日

自己部署这个就可以 huggingface.co/Qwen/Qwen2.5-Omni-7B

bigtear

2025 年 9 月 25 日

小米的智驾用的是一个 128g 显存的 NVIDIA 开发版，你可以试试能不能调用它

otakustay

2025 年 9 月 25 日

@Solix 车机有限场景下的指令遵循，Siri 的水平就够了，Siri 这方面可是纯端的，哪需要 7B 这么大规模

ca2oh4

2025 年 9 月 25 日

固定指令的话，乐鑫都有成熟的方案可直接用了

imliuruiqi

2025 年 9 月 25 日

非要本地的话也有一些量化后的小模型，但效果可能需要你自己实验一下相关研究可以顺着 huggingface 的 smollm 去找： https://huggingface.co/blog/smollm

Tink

PRO

2025 年 9 月 25 日

@maokg #3 单纯指令的话，看一下机芯智能的离线语音模块 su03t ，还有天问的 asr 系列，都可以满足。我在家里的智能家居控制用的都是这些

skallz

2025 年 9 月 25 日

我觉得你这个方案就想错了，应该是做一个语音识别，然后根据关键词，去做对应的操作，而不是接入 llm 大模型。。。

v2666

2025 年 9 月 25 日

@coefu 到处都能看到这个喷子，你到底懂不懂啊，不懂别瞎逼逼行不行

humminwang

2025 年 9 月 25 日

gemma 3 270m 可以试试 500 多 MB 内存即可

wheat0r

2025 年 9 月 25 日

我理解这个 OP 的这个逻辑，人是很复杂的，很多时候用户并不会给出指定的指令，确实需要端侧具有一定的思考能力。
比如用户可能并不会说“播放歌曲千万次的问”，而是说“给老子整个刘欢那个 ask 啥的歌”

op351

2025 年 9 月 26 日

@wheat0r 我想了想离网做了这个也没啥用因为音乐软件还是要联网搜索，然后播放哈哈

Yasuke

2025 年 9 月 26 日

@wheat0r 对，bro ，你懂我。没联网其实有 USB 音乐 @op351 哈哈哈哈哈，我最需要的想法就是精确解析出用户的意图。

Yasuke

2025 年 9 月 26 日

@jacketma @ca2oh4 @imliuruiqi @Tink @humminwang 感谢，我去了解一下