大模型时代 (2023 至今)¶
从 LLaMA 开源、SAM 重构视觉、o1 引爆"思考时代",到 DeepSeek-R1 把推理能力开源化 —— 3 年内 AI 从"会聊天"变成"会推理"。
收录笔记(28 篇)¶
- 3DGS — 把 NeRF 从离线渲染带到实时交互的 3D Gaussian Splatting · 2023 · Kerbl 等
- AudioLM - 把原始音频变成语言模型问题 · 2023 · Borsos 等
- DINOv2 - 无监督视觉特征的通用底座 · 2023 · Oquab 等
- DPO — 不要奖励模型也不要 PPO,直接用偏好数据对齐 LLM · 2023 · Rafailov 等
- GPT-4 Technical Report - 闭源时代的能力跃迁与黑箱技术报告 · 2023 · OpenAI
- LLaMA — 用更小参数与更多 token 让开源 LLM 第一次追平 GPT-3 · 2023 · Touvron 等
- Llama 2: Open Foundation and Fine-Tuned Chat Models · 2023 · Touvron 等
- LLaVA - 把 GPT-4 生成的视觉指令变成开源多模态助手 · 2023 · Liu 等
- Mamba — 选择性状态空间如何在 10 年里第一次让 Transformer 感到压力 · 2023 · Gu & Dao
- Mixtral 8x7B — 把开源 LLM 带入稀疏专家时代 · 2023 · Mistral AI
- QLoRA — 让 65B 大模型微调落到单张 48GB GPU 上 · 2023 · Dettmers 等
- RT-2:把网页知识迁移到机器人控制的视觉-语言-动作模型 · 2023 · Brohan 等
- RWKV - 把 RNN 重新带回 Transformer 时代的线性大模型 · 2023 · Peng 等
- SAM — 一个 prompt + 11M 图像 + 1B 掩码,如何把分割变成基础模型问题 · 2023 · Kirillov 等
- Toolformer - 让语言模型自学何时调用工具 · 2023 · Schick 等
- Tree of Thoughts — 让大语言模型从一次性作答走向搜索式思考 · 2023 · Yao 等
- vLLM / PagedAttention — 把 LLM 服务的瓶颈从显存碎片里救出来 · 2023 · Kwon 等
- DeepSeek-V2 / V3 - MLA 与 MoE 如何把开源模型推到前沿 · 2024 · DeepSeek-AI
- Gemini 1.5 - 百万 token 上下文的多模态长程理解 · 2024 · Google DeepMind
- Genie: 生成式交互环境 · 2024 · Bruce 等
- Llama 3 Herd - 开放权重前沿模型的工程化路线图 · 2024 · Meta AI
- Mamba-2 - Transformer 与 SSM 原来共享同一套代数 · 2024 · Dao & Gu
- OpenAI o1 - 用强化学习把大模型推向深度推理 · 2024 · OpenAI
- Sora Technical Report - 把视频生成模型推向世界模拟器 · 2024 · OpenAI
- Stable Diffusion 3 / Rectified Flow — 把文生图从 U-Net 扩散推进到可缩放的 MMDiT · 2024 · Esser 等
- Claude 3.5/3.7 Sonnet - 把前沿模型做成可控的工程同事 · 2025 · Anthropic
- DeepSeek-R1 — 纯强化学习如何让开源 LLM 学会推理 · 2025 · DeepSeek-AI
- Qwen2.5 / Qwen3 - 阿里通义千问如何把开放模型做成全栈模型族 · 2025 · Alibaba