如何训练公司特有的大模型?

如题,最近公司也想把业务跟ai结合起来,训练自己的大模型,网上看了一圈的资料,说说自己的理解,不知道对不对,还请各位佬指点指点,严格意义上来说,大模型自开放出来后,其实训练也就结束了,也就是模型的参数已经确定了,不会再改变了,后期不论跟他对话多少次,他的模型参数也不会再变,所以不存在训练一说,公司想要做自己业务的大模型,无非也是就是通过rap挂载公司自己的业务文档,然后通过调整prompt来实现特有模型的“训练”,请问这样的理解对吗,还有其他什么方式可以来“训练”大模型吗?

7 个赞

可以微调,用于特定的领域和用途,也可以预训练,从最开始的环节就加入相关的知识;还有续训练,工作量稍微少些

一般rag或者lora微调,推荐做rag,不过rag也是深坑。可以看看各大厂技术公众号,他们做了不少相关实践

1 个赞

rag和微调吧tieba_087

小公司就微调吧

微调是不是还要大模型的研发能力?公司目前没有这种能力啊 :sweat_smile:

有微调框架,可以去了解一下
unsloth 模型微调框架
huggingface 模型技术平台(可以理解成专门做大模型的 github)

1 个赞

感谢各位佬的回复,目前看应该就微调跟rag两种方式了,我先去研究研究:face_with_monocle:

技术能力一般的话就RAG 吧,搭个fastGpt 就可以开工了

1 个赞

对,但问题是得被授权后才能商用,至于公司自己可以用不可以用,我觉得如果不授权的情况,看看别人追究不
可以预训练,可以微调,甚至知识库可以自己增加,最好选个好参数的,我觉得企业至少70B吧

微调,自己需要整理数据。还是RAG+prompt好些。不要求时间就玩工作流那一套

rag好难用,尤其embedding不好的话,反正我没有用好过,sigh

我也觉得是,其他小参数的最多跟你对个话

确实召唤准确性对于我来说难搞

领导拍脑袋,底下跑断腿

1 个赞

DIFY么,我刚装完,感觉这个玩意挺有意思

可以看下开源协议,很多开源基座都能商用,在一定的规模以下没问题的,太大了才需要跟他们聊

我也装过,我用的fastgpt

1 个赞

我这个是笔记本电脑,真不配玩大模型。8G显存,画图的话就能玩玩pony,如果大语言模型,就能玩玩7B的,惨兮兮。

2 个赞

确实,而且参数要调低才能用

1 个赞