叶庭云
详解为什么现在的 LLMs 大都是 Decoder-only 的架构
关注作者
腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
叶庭云
社区首页
>
专栏
>
详解为什么现在的 LLMs 大都是 Decoder-only 的架构
详解为什么现在的 LLMs 大都是 Decoder-only 的架构
叶庭云
关注
发布于 2024-05-25 08:30:18
发布于 2024-05-25 08:30:18
552
0
举报
文章被收录于专栏:
Python进阶之路
Python进阶之路
首先概述几种主要的架构:
Encoder-only
:以谷歌的
BERT
为代表。
Encoder-Decoder
:以谷歌的
T5
、Meta 的
BART
为代表。
基于自回归空白填充的通用语言模型
:清华大学的
GLM
。
XLNet
:
XLNet
在那时是一种通用的自回归预训练方法。通过最大化所有可能的因式分解排列的对数似然,学习双向语境信息;用自回归本身的特点克服 BERT 的缺点;此外,XLNet 还融合了那时最优的自回归模型 Transformer-XL 的思路。
前缀语言模型(Prefix Language Model,
PrefixLM
)结合掩码语言模型和因果语言模型的优点,同时避免它们的不足。相比于 GPT 改进 Attention mask,前缀部分是双向,后面要生成的部分是
本文参与
腾讯云自媒体同步曝光计划
,分享自作者个人站点/博客。
原始发表:2024-05-24,如有侵权请联系
[email protected]
删除
前往查看
model
架构
模型
mask
meta
本文分享自
作者个人站点/博客
前往查看
如有侵权,请联系
[email protected]
删除。
本文参与
腾讯云自媒体同步曝光计划
,欢迎热爱写作的你一起参与!
model
架构
模型
mask
meta
评论
登录
后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档
0
0
0
推荐