注意力机制 (2017-2019)¶
从 Transformer 一篇论文起,整个 NLP / CV / 多模态领域被 self-attention 重写。
收录笔记¶
- AlphaZero — 用纯自对弈把人类围棋知识从 RL 中彻底删除 · 2017 · Silver et al.
- Capsule Networks — 用动态路由替换池化的视觉旧梦 · 2017 · Sabour, Frosst & Hinton
- CycleGAN — 用循环一致性损失打开无配对图像翻译大门 · 2017 · Zhu et al.
- GCN — 半监督节点分类与图神经网络的奠基 · 2017 · Kipf & Welling
- Mask R-CNN — 在 Faster R-CNN 上加一条分支统一了实例分割 · 2017 · He et al.
- MobileNet — 用 depthwise separable conv 把深度学习装进手机 · 2017 · Howard et al.
- PointNet — 用置换不变深度网络直接处理无序点云 · 2017 · Qi et al.
- PPO — 用 clipping 让策略梯度终于变得「可调可用」 · 2017 · Schulman et al.
- Transformer — 用注意力埋葬循环神经网络 · 2017 · Vaswani et al.
- WGAN — 用 Wasserstein 距离根治 GAN 训练不稳定 · 2017 · Arjovsky et al.
- BERT — 用掩码语言建模让 NLP 全面进入预训练时代 · 2018 · Devlin et al.
- ELMo — 用 BiLSTM 双向语言模型把 contextual embedding 推上主流 · 2018 · Peters et al.
- Graph Attention Networks (GAT) — 为图神经网络植入注意力 · 2018 · Velickovic et al.
- GPT-1 — 用 decoder-only Transformer 点燃预训练革命 · 2018 · Radford et al.
- Group Normalization — 让归一化摆脱 batch size · 2018 · Wu & He
- PGD Adversarial Training — 把对抗鲁棒性写成最小最大问题 · 2018 · Madry et al.
- SE-Net — 用 channel attention 把 ImageNet 终结者拱上 ILSVRC 2017 冠军 · 2018 · Hu et al.
- StyleGAN — 用 style modulation 把 GAN 推上照片级人脸生成 · 2018 · Karras et al.
- ULMFiT — 让 NLP 预训练微调真正可用 · 2018 · Howard & Ruder
- EfficientNet — 用 compound scaling 重新定义 CNN 模型效率 · 2019 · Tan & Le
- GPT-2 — 用规模与零样本宣告 LLM 时代的到来 · 2019 · Radford et al.
- RoBERTa — 把 BERT 重新训对的工程清醒剂 · 2019 · Liu et al.
- Sentence-BERT — 把 BERT 变成可检索的句向量引擎 · 2019 · Reimers & Gurevych
- T5 — 把所有 NLP 任务统一成 text-to-text · 2019 · Raffel et al.