首页 » 标签 » Transformer

机器学习 | LLM 并行方法（二）

时间：2026-04-07
分类：机器学习
暂无评论

本部分文章将涉及以下 LLM 并行方法：

上下文并行 (Context Parallelism, CP)：旨在突破超长序列带来的注意力计算与显存平方级增长瓶颈。
流水线并行 (Pipeline Parallelism, PP)：拥有极小的跨机通信开销，是突破单节点显存上限、实现多机大模型训练的核心基石。
专家并行 (Expert Parallelism, EP)：专为混合专家模型 (MoE) 量身定制，实现多专家的负载与算力均衡。

- 阅读剩余部分 -

机器学习 | LLM 并行方法（一）

时间：2026-04-02
分类：机器学习
暂无评论

本部分文章将涉及以下 LLM 并行方法：

数据并行 (Data Parallelism, DP)：将数据切分给不同 GPU，不同 GPU 并行处理不同输入数据。
张量并行 (Tensor Parallelism, TP)：将单个参数矩阵切分到多卡，通过协作完成层内计算。

- 阅读剩余部分 -

机器学习 | 混合专家模型 (MoE)

时间：2025-07-26
分类：机器学习
暂无评论

混合专家模型 (Mixture of Experts, MoE)：一种通过将多个“专家”子模型组合起来，通过路由模块动态选择部分专家处理不同输入，从而实现高效扩展参数规模、提升性能并降低计算成本的深度学习方法。

- 阅读剩余部分 -

机器学习 | Transformer

时间：2024-10-19
分类：机器学习
暂无评论

Transformer：一种采用注意力机制的深度学习模型，这一机制可以按输入数据各部分重要性的不同而分配不同的权重。

- 阅读剩余部分 -

机器学习 | GPT-2

时间：2024-07-30
分类：机器学习
暂无评论

GPT-2 (Generative Pre-trained Transformer 2): 是 OpenAI 发布的 GPT 系列大语言模型的第二代。它采用了纯解码器 (decoder only) 的结构，是一种自回归语言模型。

- 阅读剩余部分 -

机器学习 | 注意力机制

时间：2024-05-15
分类：机器学习
暂无评论

注意力机制 (Attention)：是人工神经网络中一种模仿认知注意力的技术。这种机制可以增强神经网络输入数据中某些部分的权重，同时减弱其他部分的权重，以此将网络的关注点聚焦于数据中最重要的一小部分。数据中哪些部分比其他部分更重要取决于上下文。

- 阅读剩余部分 -