机器学习 | LLM 并行方法(二)
本部分文章将涉及以下 LLM 并行方法:
- 上下文并行 (Context Parallelism, CP):旨在突破超长序列带来的注意力计算与显存平方级增长瓶颈。
- 流水线并行 (Pipeline Parallelism, PP):拥有极小的跨机通信开销,是突破单节点显存上限、实现多机大模型训练的核心基石。
- 专家并行 (Expert Parallelism, EP):专为混合专家模型 (MoE) 量身定制,实现多专家的负载与算力均衡。
本部分文章将涉及以下 LLM 并行方法:
本部分文章将涉及以下 LLM 并行方法:
混合专家模型 (Mixture of Experts, MoE):一种通过将多个“专家”子模型组合起来,通过路由模块动态选择部分专家处理不同输入,从而实现高效扩展参数规模、提升性能并降低计算成本的深度学习方法。
Transformer:一种采用注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。
GPT-2 (Generative Pre-trained Transformer 2): 是 OpenAI 发布的 GPT 系列大语言模型的第二代。它采用了纯解码器 (decoder only) 的结构,是一种自回归语言模型。
注意力机制 (Attention):是人工神经网络中一种模仿认知注意力的技术。这种机制可以增强神经网络输入数据中某些部分的权重,同时减弱其他部分的权重,以此将网络的关注点聚焦于数据中最重要的一小部分。数据中哪些部分比其他部分更重要取决于上下文。