关于语音识别/认证

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 4781 days ago, the information mentioned may be changed or developed.

我是个本科的学生，最近在搞一个语音识别认证的项目。
具体内容大概是这样：
通过读取音频的波形文件，进行采样、滤波、FFT这一系列操作，得到声纹，这个声纹就是由一系列的向量构成，然后把这一声纹和之前库中存放的声纹档案进行比对。实现一个语音认证的过程。这个是软件部分。
硬件部分可能要把这个认证系统用在保险箱上，比如你说一句话，保险箱咔哒就开了。这样看起来视觉效果比较唬人。

现在的问题主要在软件部分，就是怎么样对波形进行处理，得到那个数据结构。这部分我想找一些开源的代码改改用。不过不知道用什么好，请问有什么推荐吗？

声纹

认证

语音

11 replies • 1970-01-01 08:00:00 +08:00

echodjb

Apr 10, 2013

你做的不是语音识别、、、是声纹识别吧

run2

Apr 10, 2013

@echodjb 貌似他是想识别特定的密语（芝麻开门？）同时验证声纹。

AdolfPik

Apr 10, 2013 via Android

@echodjb 对。大概是。三楼正解。

iicodec

Apr 10, 2013

LZ可以检索下audio hashing/fingerprint这样的关键词

http://echoprint.me/
https://code.google.com/p/musicg/
http://phash.org

至于他们的特征抽取是否能满足你的应用就不好说了，这个得研究算法。
看你的需求是想提取某个人发音的固有特征，这对特征要求就更高了。

保险箱那个。。。还是算了吧。我觉着这类方法抗攻击性都不强（类似人脸识别），伪造比较容易，像你说的，作为附加项，唬人还是可以加点分的。做音乐识别/检索一些应用还是可以的。

B.R.

AdolfPik

Apr 10, 2013

@iicodec 关键词记下了，谢谢！是，伪造确实比较容易，主要就是为了唬人。为了应对可靠性不高的质疑，或者准备把这个作为多因素验证中的某一项。

ljbha007

Apr 10, 2013

@AdolfPik 录音机完破

AdolfPik

Apr 10, 2013

@ljbha007 录音机只能记录到PCM波形啊...需要的是向量式的数据结构不是波形。

sivacohan

PRO

Apr 11, 2013 via Android

进行fft的时候有一个要点。要设定一个单位能量的基准。可以根据声波的平均能量来进行设定。
这个东西难点在fft这。解决了这个问题之后，就是一堆数字在这比较了。你的需求不算麻烦。
如果用python的话，你一定会用的numpy的。

echodjb

Apr 11, 2013

@AdolfPik 你这是与文本相关的声纹识别

AdolfPik

Apr 12, 2013 via Android

@echodjb 不知道算不算和文本相关。机器不需要理解语义的

AdolfPik

Apr 12, 2013 via Android

@sivacohan 谢谢。记下了