零熵阁

零熵之境,思维有序。

大模型架构演进史

作者:Shaw | 日期:2024-12-03

本文全面梳理大语言模型架构的关键演进历程,从早期统计模型到现代万亿参数规模,分析各阶段技术突破与影响。

语言模型发展时间线

timeline
    title 大语言模型发展里程碑
    section 前深度学习时代
        1950 : N-gram模型
        2003 : 神经网络语言模型
        2013 : Word2Vec
    section RNN时代
        2015 : LSTM序列建模
        2017 : 注意力机制引入
    section Transformer时代
        2017 : 原始Transformer
        2018 : GPT-1/BERT
        2020 : GPT-3
    section 现代大模型
        2022 : PaLM/Chinchilla
        2023 : GPT-4/Claude
        2024 : Gemini 1.5

早期语言模型(2010年前)

统计语言模型

  • N-gram模型
  • 基于马尔可夫假设
  • 数据稀疏问题
  • 典型应用:语音识别

神经网络突破

  1. NNLM(2003):
  2. 首个神经网络语言模型
  3. 词向量雏形
  4. 受限计算能力

  5. Word2Vec(2013):

  6. CBOW/Skip-gram
  7. 词向量标准化
  8. 影响:GloVe, fastText

RNN时代(2010-2017)

架构特点

模型 创新点 局限性
LSTM 长程依赖 顺序计算
GRU 简化结构 梯度问题
Seq2Seq 编码器-解码器 信息瓶颈

重要工作

  • 2014:Seq2Seq模型
  • 2015:注意力机制提出
  • 2016:双向RNN

Transformer革命(2017)

原始论文关键点

  • 自注意力机制
  • 多头注意力(8头)
  • 位置编码方案
  • 层归一化位置

架构参数

class Transformer:
    d_model = 512  # 模型维度
    d_ff = 2048    # 前馈层维度
    h = 8          # 注意力头数
    N = 6          # 编码器/解码器层数

第一代大模型(2018-2019)

模型对比

模型 参数 创新 影响
GPT-1 117M 单向Transformer 预训练+微调范式
BERT 340M 双向注意力 MLM任务
GPT-2 1.5B 零样本能力 大模型潜力

关键技术

  • 迁移学习范式
  • 任务特定微调
  • 更大数据规模

现代大模型(2020-2024)

千亿参数时代

  1. GPT-3(2020):
  2. 1750亿参数
  3. 上下文学习
  4. 提示工程

  5. PaLM(2022):

  6. 5400亿参数
  7. Pathways系统
  8. 多任务统一

  9. GPT-4(2023):

  10. 混合专家架构
  11. 多模态能力
  12. 强化学习优化

架构创新趋势

稀疏化

  • MoE架构(Switch Transformer)
  • 专家选择策略
  • 计算效率提升

多模态

  • 视觉-语言统一
  • 跨模态注意力
  • 联合表征学习

关键性能指标演进

模型 参数量 训练数据 基准表现
GPT-1 117M 5GB 73.2% (LAMBADA)
GPT-3 175B 570GB 86.4% (LAMBADA)
PaLM 540B 780B tokens 88.7% (MMLU)
GPT-4 ~1.8T 13T tokens 94.3% (MMLU)

未来发展方向

  1. 架构创新
  2. 状态空间模型
  3. 递归注意力
  4. 神经符号结合

  5. 效率提升

  6. 稀疏激活
  7. 动态计算
  8. 量子启发

  9. 认知能力

  10. 推理能力
  11. 世界模型
  12. 具身智能

总结

大模型架构从统计方法到Transformer的演进,展现了: - 规模效应的威力 - 通用能力的涌现 - 架构创新的持续性 未来将向更高效、更智能的方向发展。