起因是公司搞到硬件了,说是要跟某个算力中心合作,接下来又好像打算训练或者微调大模型了,要写个训练方案,怎么才能既专业又能让他们死心?
说实话我还没实际训练过,有现成的框架么?最容易上手那种。
怎么写才能既专业,又能让他们死心?
训练和微调,有些时候其实没那么大的优势,尤其是我们公司现在搞的也都是关于一些专业内容的生成,直接RAG精确的反而更高
咋搞?下午就要出大纲
7 个赞
Verl 框架好上手,文档很详细
8 个赞
感谢佬,我看一下,实在是没打过富裕的仗
搞到什么硬件了多少显存,想训练微调啥模型
佬你猜我为啥想让他们死心,就是因为啥也不知道,然后只知道对方有一堆显卡,这怎么搞,
模型的话,也没选,估计是打算让我来选,这能选啥,deepseek,qwen好了
别怕 训练其实不难,做好预期管理就行了,关键就是让领导知道要达到什么效果至少要多少算力,也就是多少成本
其实我觉得就应该体现一个人绝对不够的情况,这东西我不想一个人承担结果 ![]()
天呐世另我,让我一个Java全栈开发带着几个人对着十几张 910B 折腾了半年
搞这东西目的是什么呢
LLaMA-Factory 值得拥有
kaggle¿
老旧算力过剩¿
我找到这个了,刚找到
框架只是最基础的,微调还是数据和训练方法和偏好才是重头和难点。。
1 个赞
直接SFT,llamfactory+Lora,全图形化操作,效果不比复杂的框架差,主要是数据集的质量加个dsr1-qwen3-0528,起飞。
1 个赞
对,所以我觉得这事情不靠谱,可能有些时候,不明确,训练微调搞出来的,还没直接RAG来的效果好
好的佬,图形化就很银兴化了
有多少训练数据?
进展咋样啦?
我理解的是得有数据才好训练,得人工打标之类的吧?