实时音频编解码之十九 基于AI的语音编码(LPCNet)

本文谢绝任何形式转载,谢谢。
自2012年Opus编码器推出以来经过近10年,2020年的新冠大流行使得实时音视频会议和虚拟增强会议需求进一步增加,Opus是这类场景中非常优秀的音频编码器,但AI技术可以进一步提升音视频效果。

Satin

Satin是微软于2021年2月官宣的一款基于AI的语音编码器,其目标是替代Silk编码器,Silk是Skype使用的语音编码器,Opus中LPC部分也是基于Silk编码器,Satin的特性如下:

从6kbps开始可以支持超带宽语音

从17kbps开始可以支持全带宽语音

更高的比特率可以带来更好的编码质量

即使在高丢包率的情况下音频质量依然很高

更好的冗余算法,在突发丢失情况下提供更好的保护
请添加图片描述
Satin已经在微软Teams和Skype的双向通话中使用,显然未来是会扩展到多人通话中。Satin的目标是替换掉Silk/Opus编码器。

为了在6kbps码率下达到超带宽,Satin根据对语音产生、建模和心理声学的深入理解来提取和编码信号的稀疏表示,在进一步降低所需比特率时,Satin仅对较低频带进行编码和传输某些参数,在解码侧,Satin使用深度学习网络从接收到的低频带参数以及附加信息估计高频带参数,这种方法虽然使用超低比特率编码超带宽信号,但是计算复杂度大大提高。分析输入语音信号以提取低维表示需要大量计算,在深度神经网络上进行实时推理会增加更多的复杂性。

猜你喜欢

转载自blog.csdn.net/shichaog/article/details/124780180