融合动态掩码注意力与多教师多特征知识蒸馏的文本分类
中文信息学报
页数: 17 2024-03-15
摘要: 知识蒸馏技术可以将大规模模型中的知识压缩到轻量化的模型中,在文本分类任务中实现更高效的推断。现有的知识蒸馏方法较少同时考虑多种教师与多个特征层之间的信息融合。此外,蒸馏过程采用全局填充,未能动态关注数据中的有效信息。为此,该文提出一种融合动态掩码注意力机制与多教师多特征知识蒸馏的文本分类模型,不仅引入多种教师模型(RoBERTa、Electra)的知识源,还兼顾不同教师模型在多... (共17页)