14篇最新Transformer热门论文!涵盖注意力机制、架构改进、适用性扩展等
实验表明,M2在非因果BERT风格语言建模、ViT风格图像分类和因果GPT风格语言建模中表现出色,与BERT-base和BERT-large在GLUE质量上相匹配,参数最多减少27%,在ImageNet上精度提高,同时在The PILE的预训练困惑中以360M参数匹配GPT风格的Transformers,表明了在缺乏注意力或MLP的情况下匹配Transformer质量的可能性。通过分析线性注意力的局限性,研究人员引入了映射函数和秩恢复模块,增强了自我注意力的表现力,同时保持较低的计算复杂度。
作者:AI热心分享家2024-04-26 08:30:05