当前位置:首页 > 科技文档 > 电信技术 > 正文

基于跨模态注意力的目标语音提取

计算机工程 页数: 9 2024-01-19
摘要: 目标语音提取作为语音分离领域的一部分,旨在从混合语音数据中提取出目标语音。考虑到视听信息具有天然一致性,在进行模型训练时,可以融合视觉信息指导模型对目标语音的提取。对此,传统方法是将视觉特征和音频特征进行简单拼接,然后进行卷积操作实现通道融合,这种方法无法有效挖掘到跨模态信息间的相关性。针对这个问题,设计一个基于两阶段的跨模态注意力特征融合模块。在第一阶段进行点积注意力计算来挖... (共9页)

开通会员,享受整站包年服务立即开通 >