跳转至

Awesome AI Papers

大模型时代 (2023 至今)

大模型时代 (2023 至今)¶

从 LLaMA 开源、SAM 重构视觉、o1 引爆"思考时代"，到 DeepSeek-R1 把推理能力开源化 —— 3 年内 AI 从"会聊天"变成"会推理"。

收录笔记（28 篇）¶

3DGS — 把 NeRF 从离线渲染带到实时交互的 3D Gaussian Splatting · 2023 · Kerbl 等
AudioLM - 把原始音频变成语言模型问题 · 2023 · Borsos 等
DINOv2 - 无监督视觉特征的通用底座 · 2023 · Oquab 等
DPO — 不要奖励模型也不要 PPO，直接用偏好数据对齐 LLM · 2023 · Rafailov 等
GPT-4 Technical Report - 闭源时代的能力跃迁与黑箱技术报告 · 2023 · OpenAI
LLaMA — 用更小参数与更多 token 让开源 LLM 第一次追平 GPT-3 · 2023 · Touvron 等
Llama 2: Open Foundation and Fine-Tuned Chat Models · 2023 · Touvron 等
LLaVA - 把 GPT-4 生成的视觉指令变成开源多模态助手 · 2023 · Liu 等
Mamba — 选择性状态空间如何在 10 年里第一次让 Transformer 感到压力 · 2023 · Gu & Dao
Mixtral 8x7B — 把开源 LLM 带入稀疏专家时代 · 2023 · Mistral AI
QLoRA — 让 65B 大模型微调落到单张 48GB GPU 上 · 2023 · Dettmers 等
RT-2：把网页知识迁移到机器人控制的视觉-语言-动作模型 · 2023 · Brohan 等
RWKV - 把 RNN 重新带回 Transformer 时代的线性大模型 · 2023 · Peng 等
SAM — 一个 prompt + 11M 图像 + 1B 掩码，如何把分割变成基础模型问题 · 2023 · Kirillov 等
Toolformer - 让语言模型自学何时调用工具 · 2023 · Schick 等
Tree of Thoughts — 让大语言模型从一次性作答走向搜索式思考 · 2023 · Yao 等
vLLM / PagedAttention — 把 LLM 服务的瓶颈从显存碎片里救出来 · 2023 · Kwon 等
DeepSeek-V2 / V3 - MLA 与 MoE 如何把开源模型推到前沿 · 2024 · DeepSeek-AI
Gemini 1.5 - 百万 token 上下文的多模态长程理解 · 2024 · Google DeepMind
Genie: 生成式交互环境 · 2024 · Bruce 等
Llama 3 Herd - 开放权重前沿模型的工程化路线图 · 2024 · Meta AI
Mamba-2 - Transformer 与 SSM 原来共享同一套代数 · 2024 · Dao & Gu
OpenAI o1 - 用强化学习把大模型推向深度推理 · 2024 · OpenAI
Sora Technical Report - 把视频生成模型推向世界模拟器 · 2024 · OpenAI
Stable Diffusion 3 / Rectified Flow — 把文生图从 U-Net 扩散推进到可缩放的 MMDiT · 2024 · Esser 等
Claude 3.5/3.7 Sonnet - 把前沿模型做成可控的工程同事 · 2025 · Anthropic
DeepSeek-R1 — 纯强化学习如何让开源 LLM 学会推理 · 2025 · DeepSeek-AI
Qwen2.5 / Qwen3 - 阿里通义千问如何把开放模型做成全栈模型族 · 2025 · Alibaba