零熵阁

零熵之境,思维有序。

开源大模型生态概览

作者:Shaw | 日期:2024-12-11

开源大模型正在快速发展,本文介绍主流开源模型及其技术特点。

主流开源模型

基础大模型

  1. LLaMA系列(Meta):
  2. LLaMA-1 (7B-65B)
  3. LLaMA-2 (7B-70B)
  4. 特点:仅限研究使用

  5. Falcon(TII):

  6. Falcon-7B/40B
  7. 特点:Apache 2.0许可

  8. MPT(MosaicML):

  9. MPT-7B/30B
  10. 特点:商业友好许可

对话模型

  1. Vicuna
  2. 基于LLaMA微调
  3. 接近ChatGPT效果

  4. ChatGLM(智谱):

  5. 中英双语优化
  6. 6B参数版本

技术架构创新

  1. 高效架构
  2. RWKV(RNN式Transformer)
  3. Mamba(状态空间模型)

  4. 训练优化

  5. 数据流水线改进
  6. 低成本训练方案

开源工具链

  1. 训练框架
  2. Megatron-LM
  3. DeepSpeed

  4. 推理优化

  5. vLLM
  6. Text Generation Inference

  7. 微调工具

  8. PEFT
  9. LoRAX

社区生态

  1. 模型中心
  2. HuggingFace Hub
  3. ModelScope

  4. 协作平台

  5. OpenLLM
  6. Together AI

应用挑战

  • 算力需求
  • 领域适配
  • 持续维护