Meta 开源全新音频压缩技术 EnCodec,比 MP3 小 10 倍

2022-11-06 19:38:33 +08:00
 IBMall

Meta 旗下基础人工智能研究 (FAIR) 团队在 AI 驱动的音频超压缩领域取得了成功,构建了一个由三部分组成的系统,并对其进行端到端训练,以将音频数据压缩到目标大小,然后可以使用神经网络对这些数据进行解码。与 64 kbps 的 MP3 相比,Meta 的新技术 EnCodec 实现了大约 10 倍的压缩率,而且没有质量损失。

Meta 表示,该技术尚未涵盖视频,但目前已在计划中,其目标是改进视频会议、流媒体电影以及在 VR 中与朋友玩游戏等的音频体验。EnCodec GitHub

转自

2162 次点击
所在节点    分享发现
9 条回复
konecho
2022-11-06 19:47:58 +08:00
先放个信息论在这里
RiverMud
2022-11-06 19:54:45 +08:00
还是美剧《硅谷》里的那个压缩算法 nb 。
cpstar
2022-11-06 20:01:13 +08:00
一个大胆的想法,传输的并非原始数据,而是 AI 构建的算法,就是源端用 AI 生成构建算法,AI 在目标端按照算法实时合成。
所以,并不存在压缩,而是摘要,1#的信息论就不存在了。
systemcall
2022-11-06 20:08:19 +08:00
@cpstar #3
纯语音的话,我记得这几年确实有公司做过,英伟达好像就搞过,码率比 amr 还低,但是效果还不错
gzlock
2022-11-06 21:21:07 +08:00
google 也有一个类似的项目
https://github.com/google/lyra
ericls
2022-11-06 22:23:39 +08:00
从文章提取关键词
传输关键词
另一头用 AI 根据关键词写作?
cest
2022-11-06 23:42:33 +08:00
@cpstar #3 这不就是两端都自带一个巨大 dictionary
ungrown
2022-11-07 00:25:19 +08:00
和 mp3 比怎么好意思的,有本事跟 opus 比
chenqh
2022-11-07 08:26:13 +08:00
虽然有点钻牛角尖,但是我还是想法,你音频算法这么 NB,为什么短视频看不到呢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/893117

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX