B 站视频

第一阶段:明确目标

初级目标(能用)

  • 理解大模型
  • 会用 API 调用各种大模型(如:GPT、DeepSeek、Claude)

中级目标(能训练)

  • 理解模型的训练和优化
  • 会用 LoRA 做一些指令微调,并用在业务领域

高级目标(能部署)

  • 独立模型的优化和部署能力(如:开发一个对话系统或 Agent)

第二阶段:理论打底

  • 回顾深度学习的基础知识:如前馈神经网络、梯度传播……
  • 理解 LLM 的整个演进:RNN LSTM Transformer
    • 其中 Transformer 及其自注意力的提出是量变到质变的关键
    • 所以 Transformer 是必须要吃透的重点,如多头注意力机制、位置编码、前馈网络、残差连接的作用……
  • 模型训练的加速和优化的关键点:LayerNorm、KV-Cache
  • 分词:BPE、WordPiece、SentencePiece 各有优劣
    • 分词的好坏直接影响模型的输入表达

第三阶段:模型认知

搞懂 BERT、GPT、Lama 这些模型本身的结构差异以及设计理念

为什么现在行业大多数都是用 Decorder-only 模型?因为它的推理效率高、步数简单、延迟低

这背后是工业成本和商业效率中间的一个权衡

第四阶段:训练和对齐

预训练阶段

  • 如何采集数据
  • 如何清理、去重数据
  • 如何构造好的结构化数据

高质量的数据是决定一个模型训练好坏的一个根本条件

训练过程中

  • 学习率调度
  • 优化器选择
  • 混合精度训练
  • 梯度累计
  • ……

微调阶段

  1. 掌握 LoRA、QLoRA、Prompt Tuning 等一系列的微调技术
  2. 并能够完整的执行一轮指令微调 (SFT)

对齐方面

  1. 了解 RLHF 以及它的三个步骤
  2. 了解 DPO 直接偏好优化

DPO 更简单,效果也能够去对齐 RLHF,是未来大的趋势

第五阶段:工程化能力

将模型部署下来,能够跑通,并能够取得比较好的效率

  1. 掌握模型压缩:蒸馏、量化、剪枝……
  2. 学会分布式训练:数据并行、模型并行、流水线并行……,以及 ZeRo 技术优化方式
  3. 推理部署:KV 缓存优化、动态 batch 调整、服务化封装、容灾体系……

工程的能力决定模型是否能够真正的达到上限标准

第六阶段:聚焦前沿应用

  1. 构建 RAG 系统:结合向量数据库,实现知识增强的对话体验
  2. 打造 Agent 系统:掌握 ReAct、工具调用、多个 Agent 的协助机制
  3. 扩展多模态能力:如使用 CLIP、BLIP 处理图文信息,进军视觉语言的融合

第七阶段:评估和优化阶段

评估方面

  • 内容理解
  • 幻觉识别
  • 有害内容过滤
  • 隐私保护
  • ……

优化方面

  • 建立模型的版本管理机制
  • 投入用户反馈
  • 必要时可能有在线学习
  • ……

最后提醒一点:实践很重要。除了理论基础外,一定要动手去实践