当前位置:首页 > 科技文档 > 软件 > 正文

基于时空信息辅助监督的语言-视频对比学习模型

计算机学报 页数: 17 2024-08-15
摘要: 同时使用语言和图像两种模态信息的神经网络模型在计算机视觉领域取得了很大进展.一些将其用于视频识别任务的工作,存在未考虑视频中丰富的时间-空间信息、用于描述类别的文本过于简单等不足.对此,本文提出了基于时空辅助信息监督的语言-视频对比学习模型.对于视频编码,提出了基于类别词元的时序加权位移模块进行时序建模,使得时序信息在网络从底层到高层的各个层次传播;而且还提出了时空信息辅助监督... (共17页)

开通会员,享受整站包年服务立即开通 >