Attention Is All You Need 论文阅读
Attention Is All You Need 论文阅读
本文为论文 Attention Is All You Need 的阅读笔记。
1 Introduction
论文核心贡献
- 提出了一种全新的序列转导模型——Transformer,完全基于注意力机制(attention),不再使用循环神经网络(RNN)或卷积网络(CNN)。
- 相比传统的编码器-解码器架构(RNN/LSTM/GRU + attention),Transformer:训练更快(高度可并行化)、翻译质量更高、显著降低训练时间和资源消耗
背景与动机
- 卷积网络序列模型的限制
- 这些模型中,任意两个位置的依赖计算复杂度随距离增长(ConvS2S 线性,ByteNet 对数),长距离依赖难以学习。
- Transformer 通过 self-attention 将任意位置依赖的操作数降为常数,并通过 Multi-Head Attention 弥补平均加权造成的分辨率降低问题。
- 注意力机制的优势
- 能够直接建模序列中任意位置的依赖关系,无需考虑距离。
- 之前大多数模型都是在 RNN 的基础上加 attention。
- Transformer 的创新点
- 完全抛弃循环与卷积,只依赖注意力机制(self-attention)建模序列全局依赖。
- 支持高度并行化训练,12 小时即可在 8 P100 GPU 上达到优秀效果。
2 Model Architecture
This post is licensed under CC BY 4.0 by the author.