跳转至

Awesome AI Papers

注意力机制 (2017-2019)

注意力机制 (2017-2019)¶

从 Transformer 一篇论文起，整个 NLP / CV / 多模态领域被 self-attention 重写。

收录笔记¶

AlphaZero — 用纯自对弈把人类围棋知识从 RL 中彻底删除 · 2017 · Silver et al.
Capsule Networks — 用动态路由替换池化的视觉旧梦 · 2017 · Sabour, Frosst & Hinton
CycleGAN — 用循环一致性损失打开无配对图像翻译大门 · 2017 · Zhu et al.
GCN — 半监督节点分类与图神经网络的奠基 · 2017 · Kipf & Welling
Mask R-CNN — 在 Faster R-CNN 上加一条分支统一了实例分割 · 2017 · He et al.
MobileNet — 用 depthwise separable conv 把深度学习装进手机 · 2017 · Howard et al.
PointNet — 用置换不变深度网络直接处理无序点云 · 2017 · Qi et al.
PPO — 用 clipping 让策略梯度终于变得「可调可用」 · 2017 · Schulman et al.
Transformer — 用注意力埋葬循环神经网络 · 2017 · Vaswani et al.
WGAN — 用 Wasserstein 距离根治 GAN 训练不稳定 · 2017 · Arjovsky et al.
BERT — 用掩码语言建模让 NLP 全面进入预训练时代 · 2018 · Devlin et al.
ELMo — 用 BiLSTM 双向语言模型把 contextual embedding 推上主流 · 2018 · Peters et al.
Graph Attention Networks (GAT) — 为图神经网络植入注意力 · 2018 · Velickovic et al.
GPT-1 — 用 decoder-only Transformer 点燃预训练革命 · 2018 · Radford et al.
Group Normalization — 让归一化摆脱 batch size · 2018 · Wu & He
PGD Adversarial Training — 把对抗鲁棒性写成最小最大问题 · 2018 · Madry et al.
SE-Net — 用 channel attention 把 ImageNet 终结者拱上 ILSVRC 2017 冠军 · 2018 · Hu et al.
StyleGAN — 用 style modulation 把 GAN 推上照片级人脸生成 · 2018 · Karras et al.
ULMFiT — 让 NLP 预训练微调真正可用 · 2018 · Howard & Ruder
EfficientNet — 用 compound scaling 重新定义 CNN 模型效率 · 2019 · Tan & Le
GPT-2 — 用规模与零样本宣告 LLM 时代的到来 · 2019 · Radford et al.
RoBERTa — 把 BERT 重新训对的工程清醒剂 · 2019 · Liu et al.
Sentence-BERT — 把 BERT 变成可检索的句向量引擎 · 2019 · Reimers & Gurevych
T5 — 把所有 NLP 任务统一成 text-to-text · 2019 · Raffel et al.