当前位置:首页 > 科技文档 > 硬件 > 正文

长向量处理器高效RNN推理方法

国防科技大学学报 页数: 10 2024-01-30
摘要: 模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量... (共10页)

开通会员,享受整站包年服务立即开通 >