My-Notes

❯

❯

001.大模型学习路线

001.大模型学习路线

2025年8月03日4分钟阅读

第一阶段：明确目标

初级目标（能用）

理解大模型
会用 API 调用各种大模型（如：GPT、DeepSeek、Claude）

中级目标（能训练）

理解模型的训练和优化
会用 LoRA 做一些指令微调，并用在业务领域

高级目标（能部署）

独立模型的优化和部署能力（如：开发一个对话系统或 Agent）

第二阶段：理论打底

回顾深度学习的基础知识：如前馈神经网络、梯度传播……
理解 LLM 的整个演进：RNN → LSTM → Transformer
- 其中 Transformer 及其自注意力的提出是量变到质变的关键
- 所以 Transformer 是必须要吃透的重点，如多头注意力机制、位置编码、前馈网络、残差连接的作用……
模型训练的加速和优化的关键点：LayerNorm、KV-Cache
分词：BPE、WordPiece、SentencePiece 各有优劣
- 分词的好坏直接影响模型的输入表达

第三阶段：模型认知

搞懂 BERT、GPT、Lama 这些模型本身的结构差异以及设计理念

为什么现在行业大多数都是用 Decorder-only 模型？因为它的推理效率高、步数简单、延迟低

这背后是工业成本和商业效率中间的一个权衡

第四阶段：训练和对齐

预训练阶段

如何采集数据
如何清理、去重数据
如何构造好的结构化数据

高质量的数据是决定一个模型训练好坏的一个根本条件

训练过程中

学习率调度
优化器选择
混合精度训练
梯度累计
……

微调阶段

掌握 LoRA、QLoRA、Prompt Tuning 等一系列的微调技术
并能够完整的执行一轮指令微调 (SFT)

对齐方面

了解 RLHF 以及它的三个步骤
了解 DPO 直接偏好优化

DPO 更简单，效果也能够去对齐 RLHF，是未来大的趋势

第五阶段：工程化能力

将模型部署下来，能够跑通，并能够取得比较好的效率

掌握模型压缩：蒸馏、量化、剪枝……
学会分布式训练：数据并行、模型并行、流水线并行……，以及 ZeRo 技术优化方式
推理部署：KV 缓存优化、动态 batch 调整、服务化封装、容灾体系……

工程的能力决定模型是否能够真正的达到上限标准

第六阶段：聚焦前沿应用

构建 RAG 系统：结合向量数据库，实现知识增强的对话体验
打造 Agent 系统：掌握 ReAct、工具调用、多个 Agent 的协助机制
扩展多模态能力：如使用 CLIP、BLIP 处理图文信息，进军视觉语言的融合

第七阶段：评估和优化阶段

评估方面

内容理解
幻觉识别
有害内容过滤
隐私保护
……

优化方面

建立模型的版本管理机制
投入用户反馈
必要时可能有在线学习
……

最后提醒一点：实践很重要。除了理论基础外，一定要动手去实践

第一阶段：明确目标
初级目标（能用）
中级目标（能训练）
高级目标（能部署）
第二阶段：理论打底
第三阶段：模型认知
第四阶段：训练和对齐
预训练阶段
训练过程中
微调阶段
对齐方面
第五阶段：工程化能力
第六阶段：聚焦前沿应用
第七阶段：评估和优化阶段
评估方面
优化方面

反向链接

My Notes

关系图谱

本站所有内容均为原创、翻译或转载（转载都已注明原作者的原文链接），原创及翻译文章著作权归本人所有，所有文章以知识共享署名 4.0 国际许可协议授权，转载请注明出处。