localmlhub @ ウィキ

超簡単初めてのLLaMaガイド

最終更新：2024年04月24日 16:34

匿名ユーザー

- view

だれでも歓迎！編集

https://rentry.org/TESFT-LLaMaより翻訳

このガイドの目的とポイントは、ローカル言語モデルに詳しくない人がコンピュータ上でLLaMaや同様のモデルを実行したり遊んだりするための、短くて簡単でわかりやすいガイドを提供することです。

このガイドでは以下について説明します。

LLaMa、oababooga、llama.cpp、KoboldAI、TavernAI、Pygmalion とは
LLaMaおよび同様のモデルを実行するために必要なもの
oababoogas text-generation-webuiをインストールして実行する方法(8ビットと4ビットの両方)
Pygmalionを使うためにKoboldAIとTavernAIをインストールして実行する方法
llama.cppとAlpaca（alpaca.cpp）のインストール方法
スタータープロンプトとボットのリンク/リソース

このガイドでは以下については触れません:

詳細な説明
テキスト生成における特定の用語の意味
Alpaca-LoRAのインストール
AMDカードでこれを行う方法
LoRAまたはソフトプロンプトとは
独自のプロンプト/ボットを作成する方法

LLaMaって何？

非常に簡単に言うと、LLaMaはFacebookの言語モデルであり、少し前にリークされました。それ以来、大規模サーバーではなく家庭向けハードウェアで実行できるようにするために、改良と最適化が行われてきました。現在、これらのモデルを携帯電話で実行できるようになりました。
ただし、このガイドではそれには焦点を当てず、Windows/Linuxマシンでの実行に焦点を当てます。

Alpacaって何？

Alpacaはスタンフォード大学によって訓練されたLLaMaのバージョンであり、ChatGPT、text-davinci-003、GPT-3.5などのより多くの命令に従うように微調整されています。
ただし、これらのモデルとは異なり、Alpacaはより小型で軽量であることを目的としています。text-davinci-003とほぼ同じ結果を生成する重い（パラメータの多い）モデルよりも優れています。

Oababoogaって何？

Oababoogaは、GPUを使用してコンピューター上で言語モデルをホストし、実行するためのプログラムであるtext-generation-webuiプロジェクトでよく知られているプログラマーです。
text-generation-webuiのことを、単にoababoogaと呼ぶことがあります。

llama.cppとは何ですか？

言語モデルを実行するためのより最適化されたプログラムですが、GPUではなくCPU上で実行されるため、大規模なモデルを携帯電話やM1 Macbookでも実行できるようになりました。
もちろん他にも特徴はありますが、それが他のものと区別する主な違いです。

KoboldAIって何？

テキスト生成用の別のプログラム/UIですが、単にチャットボットであるというよりも、「ゲーム性」に重点を置いています。TavernAIと組み合わせて、使うことがよくあります。

TavernAIって何？

主にストーリーテリングとロールプレイングを目的としており、もともとチャットボットやアシスタントとして使われていましたが、キャラクタープロンプトのエミュレートと理解に重点を置くようになりました。
これは、ある意味、KoboldAIの「アドベンチャーモード」の改良版に似ており、より堅牢で現実的なロールプレイングエクスペリエンスを作成するために、Pygmalionと組み合わせて使用されることが多いです。

Tavernリバースプロキシ/SillyTavernとは何ですか?

出力の品質を向上させるためのTavernの派生です。リバースプロキシとSillyTavernは2つの異なるものですが、優れたモデルと組み合わせることで、より良いを生み出すことができます。

ピグマリオン(Pygmalion)って何？

4chanの一部の人々によって作成されたモデル。主にキャラクター、ロールプレイング、世界構築、ファンタジーシナリオ内の文脈上のヒントの理解に使用されます。主に会話AIとして使われており、Kobold、Tavernと組み合わせてよく使われます。

必要PCスペック

使用しているモデルによって異なりますが、次のとおりです。

6Bは、少なくとも6/8GBのVRAMを備えたもので実行する必要があります。
13Bは、約10/12GBのVRAM を備えたデバイス上で動作するはずです。
30Bは、約20GBのVRAMを備えたもので動作するはずです。
65Bは、約40GBのVRAM を備えたもので実行する必要があります。
これらはすべて、8ビットではなく4ビットを実行したいことを前提としています。8ビットは、より多くのVRAMとシステムリソースを必要とし、実行時にはまったく効率的ではありません。これが、私たちが 4 ビットの実行に焦点を当てる理由です。

これらの「モデル」をダウンロードするにはどうすればよいですか? - モデルガイド

世の中にはさまざまなモデルがあり、どこでも機能する汎用モデルはありません。以下のリンクを使用して、自分に合ったものを見つけてください。

（訳者注：下のERPとはエロ要素のあるなりきりチャット）

8GB以上のVRAM向け

GPUで実行したいのですが、ChatGPTのようなものが欲しいです。
https://huggingface.co/chavinlo/gpt4-x-alpaca/tree/main
GPUで、ロールプレイ/ERPに使用できるものが欲しいです。
https://huggingface.co/digitous/Alpacino13b/tree/main
GPUで、ロールプレイ/ERPに使用できるものが欲しいです。（代替）
https://huggingface.co/ausboss/llama-13b-supercot-4bit-128g/tree/main

8GB程度のVRAM向け

それほど強力ではないGPUで実行したいのですが、ChatGPTのようなものが欲しいです。
https://huggingface.co/eachadea/vicuna-7b-1.1/tree/main
それほど強力ではないGPUで、ロールプレイ/ERPに使用できるものが欲しいです。
https://huggingface.co/PygmalionAI/pygmalion-6b/tree/main

そこそこ新しいCPUとそれなりのRAM

CPUで実行したいのですが、ChatGPTのようなものが欲しいです。
https://huggingface.co/vicuna/ggml-vicuna-7b-1.1/blob/main/ggml-vic7b-q5_0.bin
CPUで、ロールプレイ/ERPに使用できるものが欲しいです。
https://huggingface.co/camelids/llama-13b-supercot-ggml-q5_1/blob/main/ggml-model-q5_1.bin
CPUで、ロールプレイ/ERPに使用できるものが欲しいです。（代替）
https://huggingface.co/TheBloke/wizardLM-7B-GGML/tree/main

これが複雑だと思う場合は、torrentクライアント:

magnet:?xt=urn:btih:e88abf1b84290b162f00d3a9d79fb4f8719c2053&dn=LLaMA-HF-4bit&tr=http%3a%2f%2fbt2.archive.org%3a6969%2fannounce&tr=http%3a%2f%2fbt1.archive.org%3a6969%2fannounce

経由でダウンロードし、GPUで実行できるものを選択してください。
これらは量子化された4ビットHuggingFaceモデルです。

これらのモデルを使うにはkobold.cppをセットアップすることから始める必要があります。これは、LLMについて学び始めるための優れた、ユーザーフレンドリーなGUIです。
これを完了したら、必要に応じて、さらにモデル、oababooga、GPU KoboldAI、TavernAI、およびPygmalionのセットアップに進むことができます。

oobabooga - Windows

1. Githubからワンクリックインストーラーをダウンロードします。ここで見つけることができます：https://github.com/oobabooga/text-generation-webui/（Installation→One-click　installlersまでスクロールダウンしてください）
2. 選択したフォルダーを抽出し、install.bat を実行します。
3. その後、選択したモデルを「text-generation-webui/models」に移動します。
これで基本的には完了です。ただし、これは8ビットモデルのみであり、4ビットモデルでは少し追加の作業が必要です。次の手順は4ビットモデル用であり、8ビットを使用したいだけの場合は、ここでstart-webui.bat を実行します。
4. Git をダウンロードします。ここで見つけることができます:https://git-scm.com/download/win
5. Visual Studio 2019 のビルドツールをダウンロードします。ここで見つけることができます:https://download.visualstudio.microsoft.com/download/pr/e0881e2b-53dd-47b3-a2c1-ba171c568981/c51364831742dcd512c6cdb4a52d266215732c60202e19aede1bfdf4f141dbac/vs_BuildTools.exe
インストールするときは、「C++ ビルドツール」ボックスにチェックを入れ、他には何もチェックしません。
6. ミニコンダをダウンロードします。ここで見つけることができます:https://repo.anaconda.com/miniconda/Miniconda3-latest-Windows-x86_64.exe
7. プログラム「x64 Native Tools Command Prompt」を管理者として開き、次のコマンドを入力します。
powershell -ExecutionPolicy ByPass -NoExit -Command "& 'C:\Users\NAME\miniconda3\shell\condabin\conda-hook.ps1' ; conda activate 'C:\Users\NAME\miniconda3' " NAMEあなたのユーザーアカウント名に置き得てください。
8. text-generation-webui フォルダーに移動します。
これはcdコマンドを使用して実行できます。dirでカレントディレクトリ内のフォルダやファイルを確認し、cd .. で1つ上の階層に進みます。
9. 次のコマンドを入力します。
conda create -n textgen python=3.10.9
conda activate textgen
conda install cuda -c nvidia/label/cuda-11.3.0 -c nvidia/label/cuda-11.3.1
pip install -r requirements.txt
pip install torch==1.12+cu113 -f https://download.pytorch.org/whl/torch_stable.html
mkdir repositories (skip this command if the folder already exists)
cd repositories
git clone https://github.com/qwopqwop200/GPTQ-for-LLaMa --branch cuda --single-branch
cd GPTQ-for-LLaMa
git reset --hard c589c5456cc1c9e96065a5d285f8e3fac2cdb0fd
pip install ninja
$env:DISTUTILS_USE_SDK=1
python setup_cuda.py install
この後はセットアップが完了し、準備完了になります。「GPUが利用可能であるにもかかわらず、CUDA セットアップに失敗しました（原文：CUDA Setup failed despite GPU being available）」というエラーが表示された場合は、次の手順に進みます。
10. bitsandbytes CUDA DLL をダウンロードしてインストールします。ここで見つけることができます:https://github.com/DeXtmL/bitsandbytes-win-prebuilt/raw/main/libbitsandbytes_cuda116.dll
C:\Users\NAME\miniconda3\envs\textgen\lib\site-packages\bitsandbytes\ にインストールします。
11. 次のファイルをテキストエディタで開きます。C:\Users\NAME\miniconda3\envs\textgen\lib\site-packages\bitsandbytes\cuda_setup\main.py
if not torch.cuda.is_available(): return 'libsbitsandbytes_cpu.so', None, None, None, None　と書かれている行を探し以下のコードに置き換えます：
if torch.cuda.is_available(): return 'libbitsandbytes_cuda116.dll', None, None, None, None
self.lib = ct.cdll.LoadLibrary(binary_path)　と書かれている行を探し以下のコードに置き換えます（複数あります）：self.lib = ct.cdll.LoadLibrary(str(binary_path))
12. （任意）start-webui.batを編集します。call python server.py --auto-devices --cai-chatと書かれている行を以下のコードに置き換えます：
call python server.py --model llama-7b-4bit --wbits 4 --no-stream
使うモデルに応じて--model llama-7b-4bitの部分を書き換えてください。

KoboldAI + TavernAI - Windows

1. KoboldAIをダウンロードします。

ここで見つけることができます: https://github.com/KoboldAI/KoboldAI-Client/releases/download/1.19.2/KoboldAI-1.19.2-Setup.exe
KoboldAI は非常に大きく、モデルを除いても約7GBになるため、インストールする際はその点に注意してください。

（編注：この2からは普通にupdate-koboldai.batなどを実行したり、Windowsの普通のコマンドプロンプトから実行したりするとエラーが出ることがあるようです。Windows PowerShellを使っていくことをオススメします！ KoboldAIをインストールしたフォルダに飛んで、update-koboldaiと入力しましょう。日本語Windowsの文字コードの問題かもしれません）

2. バッチファイルを実行します。

「update-koboldai.bat」と「play.bat」を実行します。
更新スクリプトで、オプション2を選択します。このバージョンは安定性が低くなりますが、安定したバージョンはまだ2022年11月のものであり、LLMの世界ではかなり古いものです。
その後、play.batを実行します。これで、Koboldが実行され、ブラウザのタブが開いているはずです。「AI」をクリックして、選択したモデルをダウンロードします。

（編注：もしここでエラーが出てしまった場合、install_requirements.batを実行してください。選択を求められた場合、どちらも「1」を選ぶのが一番安定すると思われます。そこそこ時間はかかります）

3. Node.jsをダウンロードします。

ここで見つけることができます:https://nodejs.org/en
LTSバージョンではなく、現在のバージョンをダウンロードしてください。

4. TavernAIをダウンロードします。

ここで見つけることができます:https://github.com/TavernAI/TavernAI/releases/
ソースコードzip をダウンロードし、選択したフォルダーに解凍します。

5. TavernAIを起動します。

TavernAIのstart.bat を実行して起動し、次の操作を行います。
KoboldAIでモデルをロードし、TavernAIタブに切り替えます。
右上隅にメニューボタン（「≡」マーク）があるはずです。それを押してから、「Settings」をクリックします。
「API url」リンクが、KoboldAIの起動時に指定されたものと同じであることを確認します。通常、これはhttp://127.0.0.1:5000/です。

6.開始します。

最後に「/api」を追加して、リンク http://127.0.0.1:5000/apiのようにし、「connect」をクリックします。
これで、キャラクターをロールプレイするための、スムーズで使いやすいインターフェイスが完成しました。楽しんでください。

KoboldAI + TavernAI - Linux

1. CUDA/ROCmをインストールします。
これを行う方法はディストリビューションに依存しており、すべての方法をリストすると永遠に時間がかかるため、これを行う方法を説明することはできません。
2. Node.jsをインストールします。
19.1 未満のバージョンは動作しないため、バージョンは最新のものであることが望ましいです。
3. 最新のKobold gitリポジトリのクローンを作成します。
ターミナルでgit clone https://github.com/henk717/koboldaiを実行します。
4. TavernAI gitリポジトリを別のディレクトリにクローンし、npmをインストールします。
ターミナルでgit clone https://github.com/TavernAI/TavernAIを実行します。
次に、そのディレクトリで npm install を実行します。
5. KoboldとTavernの両方をそれぞれのシェルスクリプトを使用して実行します。
6. Kobold で次の操作を行います。
選択したモデルをダウンロードしてください。ダウンロード後、モデルをロードし、Tavernタブに切り替えます。
7. Tavernでは、次のことを行います。
右上隅にメニューボタンがあるはずです。それを押して「settings」をクリックします。
「API url」リンクが、KoboldAIの起動時に指定されたものと同じであることを確認します。通常、これはhttp://127.0.0.1:5000/です。
最後に「/api」を追加して、リンク http://127.0.0.1:5000/apiのようにし、「connect」をクリックします。
これで、キャラクターをロールプレイするための、スムーズで使いやすいインターフェイスが完成しました。楽しんでください。

以下の方法は、llama.cppの場合と同様、GGMLモデルでのみ機能します。つまり、GPUを使用するモデルではありません。さらに上のモデルガイドを使用して、必要なモデルを見つけてください。

llama.cpp - Windows

1. 最新リリースをダウンロードします。ここで見つけることができます:https://github.com/ggerganov/llama.cpp/releases
「win-avx-x64.zip」版をダウンロードします。
2. 選択したフォルダーに解凍します。
3. モデルをダウンロードします。
量子化された4ビットモデルが最適に機能しますが、llama.cppには、必要に応じて、元のFacebookのウエィトやその他のウエィトを変換、量子化、および実行するためのツールが付属しています。必要に応じて、ここ（https://github.com/ggerganov/llama.cpp#usage）でその方法を読んでください。
4. llama.cppを実行します。
これはコマンドプロンプトを使用して実行します。フォルダーに移動し、コマンド main -m models/7B/ggml-model-q4_0.bin -n 128 を実行します。
モデルを保存した場所に応じて、-m models/7B/ggml-model-q4_0.bin などのコマンドオプションを変更する必要がある場合があります。 -n 128 もモデルによって異なります。詳細については、llama.cpp githubページを参照してください。

llama.cpp - Linux

1. リポジトリをダウンロードします。
ターミナルに次のように入力します。
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
2. リポジトリを作成します。
llama.cppディレクトリでmakeコマンドを使用し、少し待ちます。
3. モデルをダウンロードします。
繰り返しますが、量子化された4ビットモデルが最適に機能します。ただし、元の Facebookウエィトを変換、量子化、実行するツールを使用したい場合は、そのまま使用してください。必要に応じて、ここで（https://github.com/ggerganov/llama.cpp#usage）その方法を読んでください。
4. llama.cppを実行します。
ターミナルで ./main -m ./models/7B/ggml-model-q4_0.bin -n 128 を実行します。繰り返しになりますが、モデル名やフォルダー名、パラメーター数に応じてコマンドオプションを変更する必要がある場合があります。

alpaca.cpp - Windows

alpaca.cppはllama.cppの特殊なバージョンですが、特にAlpacaの実行に特化しています。

1. リリース版をダウンロードします。最新バージョンはここで見つけることができます:https://github.com/antimatter15/alpaca.cpp/releases
alpaca-win.zip をダウンロードします。
2. 選択したフォルダーに解凍します。
3. 4ビットアルパカモデルをダウンロードします。ここで（https://huggingface.co/Sosaka/Alpaca-native-4bit-ggml/blob/main/ggml-alpaca-7b-q4.bin）見つけてください。
13bバージョンが必要な場合は、ここ（https://huggingface.co/chavinlo/alpaca-13b/tree/main）で見つけることができますが、自分で量子化する必要があります。ただし、「ggml-alpaca-7b-q4.bin」という名前で保存し、実行可能ファイルと同じフォルダーに置きます。
4. コマンドプロンプト経由で実行します。
コマンドプロンプトを開き、ディレクトリに移動します。chatコマンドを入力してchat.exeを起動すれば準備完了です。楽しんでください。
Linux/Mac ユーザーの場合、ダウンロードするリリースと起動方法を除いて、セットアップはまったく同じです。

kobold.cpp - Windows

kobold.cpp は、CPU上で実行するように設計されたKoboldAIのバージョンで、必要なハードウェアリソースを大幅に削減します。

1. koboldcpp.exeをダウンロードします。ここで見つけることができます:https://github.com/LostRuins/koboldcpp/releases
2. 選択したGGMLモデルをダウンロードします。
3. koboldcpp.exeを開き、モデルを設定します。
楽しんでください。

kobold.cpp - Linux

1. リポジトリをダウンロードします。
ターミナルに次のように入力します。
git clone https://github.com/LostRuins/koboldcpp
cd koboldcpp
2. リポジトリを作成します。
makeを実行するだけです
OpenBLASとCLBlastが必要かどうかに応じて、必要な依存関係が必要ですが、make LLAMA_OPENBLAS=1 LLAMA_CLBLAST=1 を実行することもできます。
3. koboldcppを実行します。
koboldcpp.py [モデル名] [ポート] で開きます。
MODELNAMEを、ダウンロードしたGGML モデルの名前に置き換えます。 KoboldAIの場合、PORTは通常5000～5001です。

Tavernリバースプロキシ

作成中

KoboldAI + TavernAI上でPygmalionをインストールする

1. KoboldAIを実行して起動します。
2. 「Load Models」をクリックし、「Chat Models」に移動して、選択したPygmalionモデルを選択します。
GPUレイヤー
を選択することは、非常に困難です。ただし、8GBのVRAMを搭載している多くの人にとっては、14レイヤーで十分です。
3. TavernAIを実行して起動し、次の操作を行います。
ここでも、通常のKobold + Tavernのインストールと同じように、設定に移動してAPI urlに接続します。

それで...?

さて、プロンプトを始めましょう。
先ほども言いましたが、プロンプト/ボットの作成方法については詳しく説明しません。何故なら、このガイドでは簡略化できないことがたくさんあるためです。
最も人気のあるスターターツールは、ここ（https://pastebin.com/vWKhETWS）で見つけることができるミクツールです。 RPBT (RolePlayBoT) と呼ばれる優れたものもあります。これは、前述のとおり、ロールプレイングに適しています。
https://botprompts.net/の/aicg/で、人々が作成した他のボットを見つけることができます。また、(方法がわかれば)https://zoltanai.github.io/character-editorで独自のボットを作成することもできます。

これで（言語モデルの使い方を）マスターできたと思います。
ローカルに構築したAIはあなた専用です。
今後のAI活動は、あなたの想像力が唯一の制限となります。それでは、思う存分AIを楽しみましょう！

タグ：

+ タグ編集

「超簡単初めてのLLaMaガイド」をウィキ内検索

人気記事ランキング

最近更新されたページ

新規Wikiランキング

最近作成されたWikiのアクセスランキングです。見るだけでなく加筆してみよう！

人気Wikiランキング

atwikiでよく見られているWikiのランキングです。新しい情報を発見してみよう！

全体ページランキング

最近アクセスの多かったページランキングです。話題のページを見に行こう！