需求:作业,需要一个能跑的 demo ,pytorch 实现语音情感分类。输入短音频 wav ,分类到开心/难过/愤怒等五类中的一类。
具体:网络结构任意,基础即可。我的想法是输入层用 LSTM ,然后接 3 层 CNN (中间若干 BN ),最后两层 dense 输出到 5 个类别( dropout?),交叉熵取值。
已经有的:已有开源音频数据集,按开心/难过/愤怒等分类好的 wav 文件,使用 scipy 和 speechpy 可以很简单地转换为二维 mfcc 数据,但是因为不是我实现所以可能具体实现过程中还需要进行一些预处理。
附注:不是很复杂,我感觉我研究研究也能写,但是太久没用过相关工具了,感觉得折腾几天。懒得搞了所以问问有没有老哥,感觉如果专门做 dl 的话天天打交道应该很快就能出吧,毕竟能收敛就行,不要求打榜级准确率。框架需要我电脑上能跑的,我是 CUDA12.1 的 pytorch ,显存 6G 。心理价位 200 不知道有没有寝室打机老哥有兴趣搞,有的话欢迎留 base64
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.