机器学习 | LLM 并行方法(二)

本部分文章将涉及以下 LLM 并行方法:

  1. 上下文并行 (Context Parallelism, CP):旨在突破超长序列带来的注意力计算与显存平方级增长瓶颈。
  2. 流水线并行 (Pipeline Parallelism, PP):拥有极小的跨机通信开销,是突破单节点显存上限、实现多机大模型训练的核心基石。
  3. 专家并行 (Expert Parallelism, EP):专为混合专家模型 (MoE) 量身定制,实现多专家的负载与算力均衡。

- 阅读剩余部分 -

机器学习 | LLM 并行方法(一)

本部分文章将涉及以下 LLM 并行方法:

  1. 数据并行 (Data Parallelism, DP):将数据切分给不同 GPU,不同 GPU 并行处理不同输入数据。
  2. 张量并行 (Tensor Parallelism, TP):将单个参数矩阵切分到多卡,通过协作完成层内计算。

- 阅读剩余部分 -

机器学习 | 混合专家模型 (MoE)

混合专家模型 (Mixture of Experts, MoE):一种通过将多个“专家”子模型组合起来,通过路由模块动态选择部分专家处理不同输入,从而实现高效扩展参数规模、提升性能并降低计算成本的深度学习方法。

- 阅读剩余部分 -

机器学习 | Transformer

Transformer:一种采用注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。

- 阅读剩余部分 -

机器学习 | GPT-2

GPT-2 (Generative Pre-trained Transformer 2): 是 OpenAI 发布的 GPT 系列大语言模型的第二代。它采用了纯解码器 (decoder only) 的结构,是一种自回归语言模型。

- 阅读剩余部分 -

机器学习 | 注意力机制

注意力机制 (Attention):是人工神经网络中一种模仿认知注意力的技术。这种机制可以增强神经网络输入数据中某些部分的权重,同时减弱其他部分的权重,以此将网络的关注点聚焦于数据中最重要的一小部分。数据中哪些部分比其他部分更重要取决于上下文。

- 阅读剩余部分 -