Skip to content

CS336: Language Modeling from Scratch: Part #1 #7

@Doragd

Description

@Doragd

https://www.bilibili.com/video/BV1YKhhzBE1M

Image * 构造一个小的语言模型可能并不具有代表性(<1B的参数),为什么呢
  1. 随着参数量的提升,FLOPS的重点从注意力层转移到了FFN,所以如果在小参数量情况下专注优化MHA,这并不能外推到大模型上去,在更大规模下,MHA优化的作用就被稀释了
Image
  1. 涌现行为,一定是在FLOPS到达一定地步上,才会出现,比如上下文学习能力,在小模型上如果发现不work,并不意味着语言模型真的不行
Image

这个课程教什么!

  • 不但教你transformer是怎么work的,关键还教你去压榨硬件的性能,培养你的规模化思维,以及一些直觉,什么样的数据和建模能够产生好的模型
Image

Metadata

Metadata

Assignees

No one assigned

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions