今回は量子化した大規模言語モデルを用いてRAGを実装してみます。 準備 ベクトルDBの構築 埋め込みモデル ベクトルDB RAGで参照する文書の用意 ベクトルDB構築と永続化 テキスト生成モデル モデル 量子化 プロンプト テキスト生成 通常のテキスト生成 RAGによるテキスト生成 大規模言語モデルをストレスなく動かそうとするとそれなりのスペックのGPUが必要になるため、個人では気軽に試すことが難しいです。 例えばパラメータ数が13B (=130億) のモデルだと、float16で扱っても約26GBのVRAMが必要になります。 しかしながら、量子化と呼ばれる方法を適用すると、パラメータを8bi…