一种融合视觉Transformer和扩散模型的单视点内窥镜手术光场重建方法(特邀)
激光与光电子学进展
页数: 11 2024-08-25
摘要: 针对内窥镜手术中单一视角图像深度估计不确定性与遮挡导致的手术场景三维感知难题,提出了一种融合视觉Transformer和条件扩散模型的单视点多平面图(MPI)表征方法,用以进行内窥镜手术光场重建。该方法首先利用视觉Transformer将输入的单视角图像令牌化,从而分解为多个图像块,并通过多头注意力机制提取局部与全局相结合的关联特征。然后,利用多尺度卷积解码器将图像块特征从粗到...