关于语音识别/认证

2013-04-10 11:26:35 +08:00
 AdolfPik
我是个本科的学生,最近在搞一个语音识别认证的项目。
具体内容大概是这样:
通过读取音频的波形文件,进行采样、滤波、FFT这一系列操作,得到声纹,这个声纹就是由一系列的向量构成,然后把这一声纹和之前库中存放的声纹档案进行比对。实现一个语音认证的过程。这个是软件部分。
硬件部分可能要把这个认证系统用在保险箱上,比如你说一句话,保险箱咔哒就开了。这样看起来视觉效果比较唬人。

现在的问题主要在软件部分,就是怎么样对波形进行处理,得到那个数据结构。这部分我想找一些开源的代码改改用。不过不知道用什么好,请问有什么推荐吗?
3949 次点击
所在节点    程序员
11 条回复
echodjb
2013-04-10 11:40:41 +08:00
你做的不是语音识别、、、是声纹识别吧
sobigfish
2013-04-10 11:45:18 +08:00
@echodjb 貌似他是想识别特定的密语(芝麻开门?)同时验证声纹。
AdolfPik
2013-04-10 12:49:30 +08:00
@echodjb 对。大概是。三楼正解。
iicodec
2013-04-10 13:13:12 +08:00
LZ可以检索下audio hashing/fingerprint这样的关键词

http://echoprint.me/
https://code.google.com/p/musicg/
http://phash.org

至于他们的特征抽取是否能满足你的应用就不好说了,这个得研究算法。
看你的需求是想提取某个人发音的固有特征,这对特征要求就更高了。

保险箱那个。。。还是算了吧。我觉着这类方法抗攻击性都不强(类似人脸识别),伪造比较容易,像你说的,作为附加项,唬人还是可以加点分的。做音乐识别/检索一些应用还是可以的。

B.R.
AdolfPik
2013-04-10 13:37:11 +08:00
@iicodec 关键词记下了,谢谢!是,伪造确实比较容易,主要就是为了唬人。为了应对可靠性不高的质疑,或者准备把这个作为多因素验证中的某一项。
ljbha007
2013-04-10 13:53:36 +08:00
@AdolfPik 录音机完破
AdolfPik
2013-04-10 15:51:38 +08:00
@ljbha007 录音机只能记录到PCM波形啊...需要的是向量式的数据结构不是波形。
sivacohan
2013-04-11 00:00:53 +08:00
进行fft的时候有一个要点。要设定一个单位能量的基准。可以根据声波的平均能量来进行设定。
这个东西难点在fft这。解决了这个问题之后,就是一堆数字在这比较了。你的需求不算麻烦。
如果用python的话,你一定会用的numpy的。
echodjb
2013-04-11 19:31:32 +08:00
@AdolfPik 你这是与文本相关的声纹识别
AdolfPik
2013-04-12 08:51:57 +08:00
@echodjb 不知道算不算和文本相关。机器不需要理解语义的
AdolfPik
2013-04-12 08:52:31 +08:00
@sivacohan 谢谢。记下了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/65453

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX