我准备做一个根据文字合成鬼畜视频的开源工具,目前有什么开源的语音转文字库吗?

2021-02-19 11:43:55 +08:00
 retrocode

现在有哪些开源的语音识别方案可以识别文字并返回文字所在帧数吗?

1539 次点击
所在节点    程序员
12 条回复
darkscope
2021-02-19 13:56:02 +08:00
先用讯飞的写呗,功能 work 了再考虑替换
catsoul
2021-02-19 14:13:36 +08:00
如果我没记错的话,前几年有这么个东西
retrocode
2021-02-19 15:01:17 +08:00
@catsoul 那你还记得名字吗?我也想参考下.
retrocode
2021-02-19 15:02:38 +08:00
@darkscope 是滴,突然的想法,先做个技术选型,不然库是 JAVA 的,结果我做的 electron 就哭了.
murmur
2021-02-19 15:02:53 +08:00
根据文字合成鬼畜视频?这样的鬼畜有什么看头么,鬼畜又不是根据声音拼素材,口型同步基本都不做的,还是看创意,要么就改歌
catsoul
2021-02-19 15:19:21 +08:00
@retrocode 名字我不知道,之前在朋友圈蛮火的,一句普通的话输入进去,它自动从影视素材的片段库里找到每个字或者词的对应片段,然后合成一个小视频那种。但是因为他没有做语音的平滑处理,所以跟我们常看的鬼畜视频不太一样。
lovecy
2021-02-19 15:26:23 +08:00
把流行的素材整理成素材库,文字对应素材库里某个素材的某一段,不就行了,也就是只要有一个人有音频识别文字,大家都能用这段素材了。
retrocode
2021-02-19 15:38:19 +08:00
@murmur oldschool 嘛,我的想法是这些问题都可以通过单独 pr 优化,并对视频片段进行分类进行处理
retrocode
2021-02-19 15:39:34 +08:00
@lovecy 不一定要流行的素材库嘛,鬼畜同事岂不美哉,鬼畜也就图一乐,被追着打才刺激
lovecy
2021-02-19 15:58:06 +08:00
@retrocode 可以先从流行的开始啊,一开始就允许上传自定义素材,步子迈得太大了吧
GTim
2021-02-19 17:00:23 +08:00
说起这件事,我一直很想做另一件事: 汉字常用 7000 左右,常用词语 10w+ 也就是说大概 11w 左右就可以了。剩下的汉子用同读音的汉字来替代就好了。然后,找个语音助手,慢慢把这 10w+ 抓下来就可以了
baobao1270
2021-02-19 20:12:48 +08:00
不是开源但是不要钱,UTAU 了解一下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/754199

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX