第一阶段:明确目标
初级目标(能用)
- 理解大模型
- 会用 API 调用各种大模型(如:GPT、DeepSeek、Claude)
中级目标(能训练)
- 理解模型的训练和优化
- 会用 LoRA 做一些指令微调,并用在业务领域
高级目标(能部署)
- 独立模型的优化和部署能力(如:开发一个对话系统或 Agent)
第二阶段:理论打底
- 回顾深度学习的基础知识:如前馈神经网络、梯度传播……
- 理解 LLM 的整个演进:RNN → LSTM → Transformer
- 其中 Transformer 及其自注意力的提出是量变到质变的关键
- 所以 Transformer 是必须要吃透的重点,如多头注意力机制、位置编码、前馈网络、残差连接的作用……
- 模型训练的加速和优化的关键点:LayerNorm、KV-Cache
- 分词:BPE、WordPiece、SentencePiece 各有优劣
- 分词的好坏直接影响模型的输入表达
第三阶段:模型认知
搞懂 BERT、GPT、Lama 这些模型本身的结构差异以及设计理念
为什么现在行业大多数都是用 Decorder-only 模型?因为它的推理效率高、步数简单、延迟低
这背后是工业成本和商业效率中间的一个权衡
第四阶段:训练和对齐
预训练阶段
- 如何采集数据
- 如何清理、去重数据
- 如何构造好的结构化数据
高质量的数据是决定一个模型训练好坏的一个根本条件
训练过程中
- 学习率调度
- 优化器选择
- 混合精度训练
- 梯度累计
- ……
微调阶段
- 掌握 LoRA、QLoRA、Prompt Tuning 等一系列的微调技术
- 并能够完整的执行一轮指令微调 (SFT)
对齐方面
- 了解 RLHF 以及它的三个步骤
- 了解 DPO 直接偏好优化
DPO 更简单,效果也能够去对齐 RLHF,是未来大的趋势
第五阶段:工程化能力
将模型部署下来,能够跑通,并能够取得比较好的效率
- 掌握模型压缩:蒸馏、量化、剪枝……
- 学会分布式训练:数据并行、模型并行、流水线并行……,以及 ZeRo 技术优化方式
- 推理部署:KV 缓存优化、动态 batch 调整、服务化封装、容灾体系……
工程的能力决定模型是否能够真正的达到上限标准
第六阶段:聚焦前沿应用
- 构建 RAG 系统:结合向量数据库,实现知识增强的对话体验
- 打造 Agent 系统:掌握 ReAct、工具调用、多个 Agent 的协助机制
- 扩展多模态能力:如使用 CLIP、BLIP 处理图文信息,进军视觉语言的融合
第七阶段:评估和优化阶段
评估方面
- 内容理解
- 幻觉识别
- 有害内容过滤
- 隐私保护
- ……
优化方面
- 建立模型的版本管理机制
- 投入用户反馈
- 必要时可能有在线学习
- ……
最后提醒一点:实践很重要。除了理论基础外,一定要动手去实践