WindowsでGGMLモデルを使う方法を説明しています。
手順は3つだけです:
1. GGML 形式でモデルをダウンロード
2. KoboldCPP.exe をダウンロード
3. モデルを設定しKoboldCPP.exeを実行し、ブラウザでそのURLに移動します
2. KoboldCPP.exe をダウンロード
3. モデルを設定しKoboldCPP.exeを実行し、ブラウザでそのURLに移動します
1. これらのGGMLモデル.bin ファイルの少なくとも1つをダウンロードします。複数のモデルが存在する場合は、「Q5_1」または少なくとも「Q5_0」のラベルが付いているモデルをダウンロードすることをお勧めします。
(S/s)toryまたは(I/i)nstructモードで使えるモデル:
(SI) 13B (10GB RAM) Vicuna-13b-Cocktail
(Si) 7B (6GB RAM) Wizard-Vicuna-7B-Uncensored (Q4_0は、RAM使用量が少なく、速い生成とダーティトークには依然として適しています)
(S) 6B (8GB RAM) GPT-J-Janeway-6B
下のモデルは古いですがまだ動作します --gpulayersと併用することはできません。
(SI) 13B (10GB RAM) oasst-llama13b
(SI) 13B (10GB RAM) oasst-llama13b
その他の推奨されるGGMLモデルはこちら https://github.com/LostRuins/koboldcpp/discussions/87
新しいGGMLモデルについてはHuggingfaceを検索してください https://huggingface.co/models?sort=modified&search=ggml
2. 最新のKoboldcpp.exeをここから入手します: https://github.com/LostRuins/koboldcpp/releases
なおWindowsがセキュリティに関する表示を出しても(あまりダウンロードされていないアプリです、など)無視して大丈夫です。
(編注:GGMLモデルは仕様変更が多く、互換性もないことがあるので新しいモデルが古いバージョンのKoboldcpp.exeで動かないということがしばしばあります!)
なおWindowsがセキュリティに関する表示を出しても(あまりダウンロードされていないアプリです、など)無視して大丈夫です。
(編注:GGMLモデルは仕様変更が多く、互換性もないことがあるので新しいモデルが古いバージョンのKoboldcpp.exeで動かないということがしばしばあります!)
(編注:以下、5までは英語版の説明から少し付け加えています)
3. KoboldCPP.exeをダブルクリックして実行しましょう。ウィンドウが表示されます。LAUNCHボタンを押せば起動します。Streaming ModeはONにするのがおすすめです。
3. KoboldCPP.exeをダブルクリックして実行しましょう。ウィンドウが表示されます。LAUNCHボタンを押せば起動します。Streaming ModeはONにするのがおすすめです。
※より詳細な設定をしたい場合、コマンドプロンプトで「KoboldCPP.exe --help」を実行して、より詳細な制御のためのコマンド ライン引数を活用することもできます。 --threads (CPU コアの数)、--stream、--smartcontext、および --host (内部ネットワーク IP) が役立ちます。 --host を使用すると、ローカル ネットワークまたは VPN からの使用が可能になります。 「--useclblast 0 0」はおそらく GPU0 にマッピングされ、「1 0」は GPU1 にマッピングされます。ほかの設定は、自分で実験してみてください。
4. ステップ1でダウンロードしたbinファイルを選択します。かなりメモリを使うので、モデルを読み込むのに十分なRAMを必ず解放してください。余力がないマシンではPCの再起動直後に実行するのもいいでしょう。
5. モデルがロードされたら、コマンドプロンプトに表示されているURLに移動します。
ワークフロー
ストーリーの生成
1. 「New Game」ボタンをクリックします
2. 「Scenarios」ボタンをクリックし、ポップアップウィンドウで「New Story」をクリックします
3. 「Setteing」ボタンをクリックし、最大トークン数を2048、生成する量を512、もし音声で読み上げてほしいのであればTTS音声(オプション)を設定します。
プロンプトの例:「As a private investigator, my most lurid and sensational case was(個人探偵として、私の最もばかげたセンセーショナルな事件は)」で、「Submit」を押します。
テキストの生成が止まったら、もう一度「Submit」をクリックして続行します。Stable Diffusion と同様に、生成には当たり外れが生じる可能性があります。テキスト生成中に「中止(ABORT)」をクリックし、ステップ1からやり直して再初期化します。
2. 「Scenarios」ボタンをクリックし、ポップアップウィンドウで「New Story」をクリックします
3. 「Setteing」ボタンをクリックし、最大トークン数を2048、生成する量を512、もし音声で読み上げてほしいのであればTTS音声(オプション)を設定します。
プロンプトの例:「As a private investigator, my most lurid and sensational case was(個人探偵として、私の最もばかげたセンセーショナルな事件は)」で、「Submit」を押します。
テキストの生成が止まったら、もう一度「Submit」をクリックして続行します。Stable Diffusion と同様に、生成には当たり外れが生じる可能性があります。テキスト生成中に「中止(ABORT)」をクリックし、ステップ1からやり直して再初期化します。
別のスタイル
3.のとき、生成する量は50~60程度に抑えます。
想定していない方向に話が進んだ場合、生成中なら回転しているボタンの下にある「ABORT」を押して止めましょう。もしも生成が終わっていたなら「RETRY」ボタンを押してみたり「BACK」を押してみたりしましょう。一番早いのは、「Allow Editing」にチェックを入れて直接書き換えてしまうことです。
想定していない方向に話が進んだ場合、生成中なら回転しているボタンの下にある「ABORT」を押して止めましょう。もしも生成が終わっていたなら「RETRY」ボタンを押してみたり「BACK」を押してみたりしましょう。一番早いのは、「Allow Editing」にチェックを入れて直接書き換えてしまうことです。
ChatGPTスタイルのクエリ
ステップ2でポップアップウィンドウで「New Instruct」を選択する点を除き、上記と同じです。ステップ3では、小さいプロンプト(例:「What's the capital of Ohio?(オハイオ州の首都はどこですか?)」)
または大きいプロンプト(例:「Write 10 paragraphs comparing gas to oil(ガスと石油を比較する10段落の文章を書いてください)」)のトークンの生成量を調整することができます。
または大きいプロンプト(例:「Write 10 paragraphs comparing gas to oil(ガスと石油を比較する10段落の文章を書いてください)」)のトークンの生成量を調整することができます。
コマンドプロンプトでCTRL-Cを押して停止します