零熵阁

零熵之境，思维有序。

开源大模型生态概览

作者：Shaw | 日期：2024-12-11

开源大模型正在快速发展，本文介绍主流开源模型及其技术特点。

主流开源模型

基础大模型

LLaMA系列（Meta）：
LLaMA-1 (7B-65B)
LLaMA-2 (7B-70B)
特点：仅限研究使用
Falcon（TII）：
Falcon-7B/40B
特点：Apache 2.0许可
MPT（MosaicML）：
MPT-7B/30B
特点：商业友好许可

对话模型

Vicuna：
基于LLaMA微调
接近ChatGPT效果
ChatGLM（智谱）：
中英双语优化
6B参数版本

技术架构创新

高效架构：
RWKV（RNN式Transformer）
Mamba（状态空间模型）
训练优化：
数据流水线改进
低成本训练方案

开源工具链

训练框架：
Megatron-LM
DeepSpeed
推理优化：
vLLM
Text Generation Inference
微调工具：
PEFT
LoRAX

社区生态

模型中心：
HuggingFace Hub
ModelScope
协作平台：
OpenLLM
Together AI

应用挑战

算力需求
领域适配
持续维护