https://www.bilibili.com/video/BV1YKhhzBE1M

* 构造一个小的语言模型可能并不具有代表性(<1B的参数),为什么呢
- 随着参数量的提升,FLOPS的重点从注意力层转移到了FFN,所以如果在小参数量情况下专注优化MHA,这并不能外推到大模型上去,在更大规模下,MHA优化的作用就被稀释了
- 涌现行为,一定是在FLOPS到达一定地步上,才会出现,比如上下文学习能力,在小模型上如果发现不work,并不意味着语言模型真的不行
这个课程教什么!
- 不但教你transformer是怎么work的,关键还教你去压榨硬件的性能,培养你的规模化思维,以及一些直觉,什么样的数据和建模能够产生好的模型
