AI Deep Dive
AI 深度解析 EP11: Attention Is All You Need — 改变一切的论文
2026年3月24日10 分钟阅读

Transformer:从 RNN 到革命
2017 年 6 月发表的 "Attention Is All You Need" 引入了 Transformer 架构,奠定了现代所有 AI 系统的基础。
RNN 的根本问题
- 顺序处理:计算第 t 步必须等第 t-1 步完成
- 长距离信息衰减
- 固定长度编码瓶颈
- 无法在 GPU 上并行化
自注意力机制
对序列中每个位置计算三个向量:
- Query (Q):这个位置在"找什么"
- Key (K):这个位置能"提供什么"
- Value (V):实际内容
Attention(Q,K,V) = softmax(QK^T / sqrt(d_k)) * V
整个运算完全并行——每个位置同时计算与所有其他位置的关系。
多头注意力
八个并行的注意力运算,各学习不同的关系模式(语法、指代、距离)。结果拼接后投影。
关键创新
- 位置编码:正弦函数注入位置信息
- 前馈网络(FFN):对聚集的信息做非线性变换
- 残差连接 + 层归一化:使深层网络可训练
深远影响
BERT(编码器)、GPT(解码器)、ViT(视觉)、DALL-E(生成)——全部源自这一个架构。
🎧 收听播客
#Transformer#Attention#NLP#Deep Learning#Research Paper


