localmlhub @ ウィキ

Windows向け初心者ガイド

最終更新：2023年06月10日 09:28

匿名ユーザー

- view

だれでも歓迎！編集

https://rentry.org/local_LLM_guideより翻訳

WindowsでGGMLモデルを使う方法を説明しています。

手順は3つだけです:

1. GGML 形式でモデルをダウンロード
2. KoboldCPP.exe をダウンロード
3. モデルを設定しKoboldCPP.exeを実行し、ブラウザでそのURLに移動します

1. これらのGGMLモデル.bin ファイルの少なくとも1つをダウンロードします。複数のモデルが存在する場合は、「Q5_1」または少なくとも「Q5_0」のラベルが付いているモデルをダウンロードすることをお勧めします。

(S/s)toryまたは(I/i)nstructモードで使えるモデル:

(SI) 13B (10GB RAM) Vicuna-13b-Cocktail

(Si) 7B (6GB RAM) Wizard-Vicuna-7B-Uncensored (Q4_0は、RAM使用量が少なく、速い生成とダーティトークには依然として適しています)

(S) 6B (8GB RAM) GPT-J-Janeway-6B

下のモデルは古いですがまだ動作します　--gpulayersと併用することはできません。
(SI) 13B (10GB RAM) oasst-llama13b

その他の推奨されるGGMLモデルはこちら　https://github.com/LostRuins/koboldcpp/discussions/87

新しいGGMLモデルについてはHuggingfaceを検索してください　https://huggingface.co/models?sort=modified&search=ggml

2. 最新のKoboldcpp.exeをここから入手します: https://github.com/LostRuins/koboldcpp/releases
なおWindowsがセキュリティに関する表示を出しても（あまりダウンロードされていないアプリです、など）無視して大丈夫です。
（編注：GGMLモデルは仕様変更が多く、互換性もないことがあるので新しいモデルが古いバージョンのKoboldcpp.exeで動かないということがしばしばあります！）

（編注：以下、5までは英語版の説明から少し付け加えています）
3. KoboldCPP.exeをダブルクリックして実行しましょう。ウィンドウが表示されます。LAUNCHボタンを押せば起動します。Streaming ModeはONにするのがおすすめです。

※より詳細な設定をしたい場合、コマンドプロンプトで「KoboldCPP.exe --help」を実行して、より詳細な制御のためのコマンドライン引数を活用することもできます。 --threads (CPU コアの数)、--stream、--smartcontext、および --host (内部ネットワーク IP) が役立ちます。 --host を使用すると、ローカルネットワークまたは VPN からの使用が可能になります。「--useclblast 0 0」はおそらく GPU0 にマッピングされ、「1 0」は GPU1 にマッピングされます。ほかの設定は、自分で実験してみてください。

4. ステップ1でダウンロードしたbinファイルを選択します。かなりメモリを使うので、モデルを読み込むのに十分なRAMを必ず解放してください。余力がないマシンではPCの再起動直後に実行するのもいいでしょう。

5. モデルがロードされたら、コマンドプロンプトに表示されているURLに移動します。

ワークフロー

ストーリーの生成

1. 「New Game」ボタンをクリックします
2. 「Scenarios」ボタンをクリックし、ポップアップウィンドウで「New Story」をクリックします
3. 「Setteing」ボタンをクリックし、最大トークン数を2048、生成する量を512、もし音声で読み上げてほしいのであればTTS音声(オプション)を設定します。
プロンプトの例:「As a private investigator, my most lurid and sensational case was（個人探偵として、私の最もばかげたセンセーショナルな事件は）」で、「Submit」を押します。
テキストの生成が止まったら、もう一度「Submit」をクリックして続行します。Stable Diffusion と同様に、生成には当たり外れが生じる可能性があります。テキスト生成中に「中止（ABORT）」をクリックし、ステップ1からやり直して再初期化します。

別のスタイル

3.のとき、生成する量は50～60程度に抑えます。
想定していない方向に話が進んだ場合、生成中なら回転しているボタンの下にある「ABORT」を押して止めましょう。もしも生成が終わっていたなら「RETRY」ボタンを押してみたり「BACK」を押してみたりしましょう。一番早いのは、「Allow Editing」にチェックを入れて直接書き換えてしまうことです。

ChatGPTスタイルのクエリ

ステップ2でポップアップウィンドウで「New Instruct」を選択する点を除き、上記と同じです。ステップ3では、小さいプロンプト（例:「What's the capital of Ohio?（オハイオ州の首都はどこですか?）」）
または大きいプロンプト（例:「Write 10 paragraphs comparing gas to oil（ガスと石油を比較する10段落の文章を書いてください）」）のトークンの生成量を調整することができます。

コマンドプロンプトでCTRL-Cを押して停止します

タグ：

+ タグ編集

「Windows向け初心者ガイド」をウィキ内検索

人気記事ランキング

最近更新されたページ

新規Wikiランキング

最近作成されたWikiのアクセスランキングです。見るだけでなく加筆してみよう！

人気Wikiランキング

atwikiでよく見られているWikiのランキングです。新しい情報を発見してみよう！

全体ページランキング

最近アクセスの多かったページランキングです。話題のページを見に行こう！

Windows向け初心者ガイド

ワークフロー

ストーリーの生成

別のスタイル

ChatGPTスタイルのクエリ

メニュー

リンク

更新履歴