大模型架构演进史
本文全面梳理大语言模型架构的关键演进历程,从早期统计模型到现代万亿参数规模,分析各阶段技术突破与影响。
语言模型发展时间线
timeline
title 大语言模型发展里程碑
section 前深度学习时代
1950 : N-gram模型
2003 : 神经网络语言模型
2013 : Word2Vec
section RNN时代
2015 : LSTM序列建模
2017 : 注意力机制引入
section Transformer时代
2017 : 原始Transformer
2018 : GPT-1/BERT
2020 : GPT-3
section 现代大模型
2022 : PaLM/Chinchilla
2023 : GPT-4/Claude
2024 : Gemini 1.5
早期语言模型(2010年前)
统计语言模型
- N-gram模型:
- 基于马尔可夫假设
- 数据稀疏问题
- 典型应用:语音识别
神经网络突破
- NNLM(2003):
- 首个神经网络语言模型
- 词向量雏形
-
受限计算能力
-
Word2Vec(2013):
- CBOW/Skip-gram
- 词向量标准化
- 影响:GloVe, fastText
RNN时代(2010-2017)
架构特点
模型 | 创新点 | 局限性 |
---|---|---|
LSTM | 长程依赖 | 顺序计算 |
GRU | 简化结构 | 梯度问题 |
Seq2Seq | 编码器-解码器 | 信息瓶颈 |
重要工作
- 2014:Seq2Seq模型
- 2015:注意力机制提出
- 2016:双向RNN
Transformer革命(2017)
原始论文关键点
- 自注意力机制
- 多头注意力(8头)
- 位置编码方案
- 层归一化位置
架构参数
class Transformer:
d_model = 512 # 模型维度
d_ff = 2048 # 前馈层维度
h = 8 # 注意力头数
N = 6 # 编码器/解码器层数
第一代大模型(2018-2019)
模型对比
模型 | 参数 | 创新 | 影响 |
---|---|---|---|
GPT-1 | 117M | 单向Transformer | 预训练+微调范式 |
BERT | 340M | 双向注意力 | MLM任务 |
GPT-2 | 1.5B | 零样本能力 | 大模型潜力 |
关键技术
- 迁移学习范式
- 任务特定微调
- 更大数据规模
现代大模型(2020-2024)
千亿参数时代
- GPT-3(2020):
- 1750亿参数
- 上下文学习
-
提示工程
-
PaLM(2022):
- 5400亿参数
- Pathways系统
-
多任务统一
-
GPT-4(2023):
- 混合专家架构
- 多模态能力
- 强化学习优化
架构创新趋势
稀疏化
- MoE架构(Switch Transformer)
- 专家选择策略
- 计算效率提升
多模态
- 视觉-语言统一
- 跨模态注意力
- 联合表征学习
关键性能指标演进
模型 | 参数量 | 训练数据 | 基准表现 |
---|---|---|---|
GPT-1 | 117M | 5GB | 73.2% (LAMBADA) |
GPT-3 | 175B | 570GB | 86.4% (LAMBADA) |
PaLM | 540B | 780B tokens | 88.7% (MMLU) |
GPT-4 | ~1.8T | 13T tokens | 94.3% (MMLU) |
未来发展方向
- 架构创新:
- 状态空间模型
- 递归注意力
-
神经符号结合
-
效率提升:
- 稀疏激活
- 动态计算
-
量子启发
-
认知能力:
- 推理能力
- 世界模型
- 具身智能
总结
大模型架构从统计方法到Transformer的演进,展现了: - 规模效应的威力 - 通用能力的涌现 - 架构创新的持续性 未来将向更高效、更智能的方向发展。