先放开源地址
Q4量化
背景
大概今年一月份的时候,想用比如claude或者gpt尝试写小说,当时也经常和AI聊脑洞和大纲。但是实际用AI写过小说的佬友应该知道,AI写小说没法解决前后文一致性的问题。最开始的想法是尝试用多agent+数据库的方式,但是很快就放弃了,因为运作起来太复杂。
于是又决定返璞归真,放弃数据库和多agent,通过记录和更新md文件让AI记住前文。但是我自己尝试感觉效果一般,写个几章就开始在细节上出问题了。
再之后就是尝试用LightRAG检索,这个其实效果不错。当时寒假在番茄纯用AI写小说,也不赚钱,验证期的时候每天就几毛。之后写到大概18W字,一方面是要回学校了比较忙,另一方面是这个“流水线”很粗糙,纯AI写的代码,中间为了加入LightRAG还改造过几次。更重要的是一直在用的公益claude没了,其他模型写的内容自己完全看不下去,遂太监。
但其实就算是claude opus模型,如果直出的话,用朱雀检测基本是一片红。就算给AI传了写作指南,效果也比较有限,于是动了微调模型的念头。
过程
整个训练从最开始的想法,到现在开源过了将近两个月时间。最开始的基底是来自github的开源项目:GitHub - decodingai-magazine/llm-twin-course: 🤖 𝗟𝗲𝗮𝗿𝗻 for 𝗳𝗿𝗲𝗲 how to 𝗯𝘂𝗶𝗹𝗱 an end-to-end 𝗽𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻-𝗿𝗲𝗮𝗱𝘆 𝗟𝗟𝗠 & 𝗥𝗔𝗚 𝘀𝘆𝘀𝘁𝗲𝗺 using 𝗟𝗟𝗠𝗢𝗽𝘀 best practices: ~ 𝘴𝘰𝘶𝘳𝘤𝘦 𝘤𝘰𝘥𝘦 + 12 𝘩𝘢𝘯𝘥𝘴-𝘰𝘯 𝘭𝘦𝘴𝘴𝘰𝘯𝘴 · GitHub
之后就是在这个项目的微调脚本上做改造,中间让ai修了不少兼容问题。
最开始我的目标基座模型是qwen3.5-9B,在构造好SFT微调的数据集后训练了一个扩写任务的模型,然后用modal部署推理(每个月有免费的25刀额度)。但是测试了一个例子,感觉效果并不好,送去朱雀AI检测,依旧是一片红。
经过反思和跟AI的讨论,决定重新开始做数据集,并且把目标模型换成qwen3.5-27B,这主要是我认为大参数模型在写作任务上比小模型强得多。训练策略换成SFT+ORPO两步骤。中间构造数据集的过程不细说了,因为担心有版权问题。大概就是搜集了十二本西幻小说,从中精选出章节,分成扩写和润色任务两大类做SFT,以及再选出八千条构造ORPO用的训练集。
结果
训练完成后推理测试了两个例子,送去朱雀AI检测,一个是全绿,另一个是大部分绿加黄。作为对比,相同参数和提示词,base model一个是全红,一个是大部分红加黄。因为使用的测试用例涉及真实作品,无法截图。
感想
说实话,现在完成微调后,最大的感受是放松,像是终于完成了一个任务。算是自己暂时给AI小说的探索画一个句号。
最大的感悟是,至少现在想完全依靠AI写小说赚钱,应该是不太可能的。或者说能靠AI写小说赚钱的人,本身自己的写也不差。里面最大的差距也不是文笔或者一致性,而是对网文市场的理解:知道读者想看什么。
第一次发帖,欢迎各位佬友留言。