当前位置:首页 > 科技文档 > 电信技术 > 正文

基于扩张卷积和Transformer的视听融合语音分离方法

信号处理 页数: 10 2023-10-16
摘要: 为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征中的长期依赖关系,并强化网络对输入上下文信息的理解,本文提出了一种基于一维扩张卷积与Transformer的时域视听融合语音分离模型。将基于频域的传统视听融合语... (共10页)

开通会员,享受整站包年服务立即开通 >