localmlhub @ ウィキ

oobaboogaの引数表

最終更新：2023年08月07日 05:12

匿名ユーザー

- view

だれでも歓迎！編集

オプション	説明
-h, --help	ヘルプメッセージを表示して終了します。
--notebook	ノートブックモードでウェブUIを起動します。出力は入力と同じテキストボックスに書き込まれます。
--chat	キャラクター.AIのウェブサイトに似たスタイルでチャットモードでウェブUIを起動します。
--multi-user	マルチユーザーモード。チャット履歴は保存または自動的に読み込まれません。警告：これは非常に実験的です。
--character CHARACTER	チャットモードでデフォルトでロードするキャラクターの名前。
--model MODEL	デフォルトでロードするモデルの名前。
--lora LORA [LORA ...]	ロードするLoRAのリスト。複数のLoRAをロードする場合は、スペースで区切って名前を指定します。
--model-dir MODEL_DIR	すべてのモデルが格納されたディレクトリへのパス。
--lora-dir LORA_DIR	すべてのLoRAが格納されたディレクトリへのパス。
--model-menu	ウェブUIが最初に起動されたときにターミナルにモデルメニューを表示します。
--no-stream	テキストの出力をリアルタイムでストリームしません。
--settings SETTINGS	このyamlファイルからデフォルトのインターフェース設定をロードします。
--extensions EXTENSIONS [EXTENSIONS ...]	ロードする拡張機能のリスト。複数の拡張機能をロードする場合は、スペースで区切って名前を指定します。
--verbose	プロンプトをターミナルに表示します。
--loader LOADER	モデルローダーを手動で選択します。それ以外の場合は自動検出されます。
--cpu	テキスト生成にCPUを使用します。警告：CPUでのトレーニングは非常に遅くなります。
--auto-devices	利用可能なGPUとCPUにモデルを自動的に分割します。
--gpu-memory GPU_MEMORY [GPU_MEMORY ...]	GPUごとに割り当てる最大GPUメモリ（GiB）。
--cpu-memory CPU_MEMORY	オフロードされた重み用に割り当てる最大CPUメモリ（GiB）。
--disk	モデルがGPUとCPUの両方のメモリを超える場合、残りのレイヤーをディスクに送信します。
--disk-cache-dir DISK_CACHE_DIR	ディスクキャッシュを保存するディレクトリへのパス。デフォルトは "cache" です。
--load-in-8bit	8ビット精度でモデルをロードします（bitsandbytesを使用）。
--bf16	bfloat16精度でモデルをロードします。NVIDIA Ampere GPUが必要です。
--no-cache	テキスト生成時にuse_cacheをFalseに設定します。これにより、VRAMの使用量が少し減少しますが、パフォーマンスが低下します。
--xformers	xformerのメモリ効率の良いアテンションを使用します。これにより、トークン/秒が増加するはずです。
--sdp-attention	torch 2.0のsdpアテンションを使用します。
--trust-remote-code	モデルをロードする際にtrust_remote_code=Trueを設定します。ChatGLMとFalconに必要です。
--load-in-4bit	4ビット精度でモデルをロードします（bitsandbytesを使用）。
--compute_dtype COMPUTE_DTYPE	4ビットの計算精度を指定します。有効なオプション: bfloat16、float16、float32。
--quant_type QUANT_TYPE	4ビットの量子化タイプを指定します。有効なオプション: nf4、fp4。
--use_double_quant	4ビットでの使用時にuse_double_quantを指定します。
--threads THREADS	使用するスレッドの数。
--n_batch N_BATCH	llama_evalを呼び出す際に一緒にバッチ化する最大プロンプトトークンの数。
--no-mmap	mmapを使用しないようにします。
--low-vram	低VRAMモード。
--mlock	システムにモデルをRAMに保持させるようにします。
--cache-capacity CACHE_CAPACITY	最大キャッシュ容量。単位なしで提供された場合、バイトが想定されます。
--n-gpu-layers N_GPU_LAYERS	GPUにオフロードするレイヤーの数。
--n_ctx N_CTX	プロンプトコンテキストのサイズ。
--llama_cpp_seed LLAMA_CPP_SEED	llama-cppモデル用のシード。デフォルトは0（ランダム）。
--wbits WBITS	指定された精度（ビット単位）の事前量子化モデルをロードします。サポートされているオプション: 2、3、4、8。
--model_type MODEL_TYPE	事前量子化モデルのモデルタイプ。現在、LLaMA、OPT、GPT-Jがサポートされています。
--groupsize GROUPSIZE	グループサイズ。
--pre_layer PRE_LAYER [PRE_LAYER ...]	GPUに割り当てるレイヤーの数。これを設定すると、4ビットモデルのためにCPUオフロードが有効になります。
--checkpoint CHECKPOINT	量子化チェックポイントファイルへのパス。指定しない場合、自動的に検出されます。
--monkey-patch	モンキーパッチを適用して、量子化モデルでLoRAを使用します。
--quant_attn	（triton）量子アテンションを有効にします。
--warmup_autotune	（triton）ウォームアップオートチューニングを有効にします。
--fused_mlp	（triton）融合MLPを有効にします。
--gptq-for-llama	廃止予定
--autogptq	廃止予定
--triton	Tritonを使用します。
--no_inject_fused_attention	フューズドアテンションを使用しません（VRAMの要件を低減させます）。
--no_inject_fused_mlp	Tritonモードのみ: フューズドMLPを使用しません（VRAMの要件を低減させます）。
--no_use_cuda_fp16	一部のシステムでモデルを高速化することができます。
--desc_act	quantize_config.jsonが存在しないモデル用のパラメーターで、BaseQuantizeConfigでdesc_actを設定するかどうかを定義します。
--gpu-split GPU_SPLIT	モデルのレイヤーごとに使用するVRAM（GB）のカンマ区切りリスト。例: 20,7,7
--max_seq_len MAX_SEQ_LEN	最大シーケンス長。
--compress_pos_emb COMPRESS_POS_EMB	位置埋め込みの圧縮係数。通常、max_seq_len / 2048に設定する必要があります。
--alpha_value ALPHA_VALUE	NTK RoPEスケーリングの位置埋め込みのアルファ係数。上記と同じです。これまたはcompress_pos_embのいずれかを使用しますが、両方を使用しないでください。
--flexgen	廃止予定
--percent PERCENT [PERCENT ...]	FlexGen: 割り当てパーセンテージ。スペースで区切られた6つの数字を指定する必要があります（デフォルト：0、100、100、0、100、0）。
--compress-weight	FlexGen: 重み圧縮を有効にします。
--pin-weight [PIN_WEIGHT]	FlexGen: 重みをピン留めするかどうか（これをFalseに設定すると、CPUメモリが20％削減されます）。
--deepspeed	DeepSpeed ZeRO-3を統合したTransformersの使用を有効にします。
--nvme-offload-dir NVME_OFFLOAD_DIR	DeepSpeed: ZeRO-3 NVMEオフロードに使用するディレクトリ。
--local_rank LOCAL_RANK	DeepSpeed: 分散セットアップのためのオプション引数。
--rwkv-strategy RWKV_STRATEGY	RWKV: モデルをロードする際に使用するストラテジー。例：「cpu fp32」、「cuda fp16」、「cuda fp16i8」。
--rwkv-cuda-on	RWKV: パフォーマンス向上のためにCUDAカーネルをコンパイルします。
--listen	ウェブUIをローカルネットワークからアクセス可能にします。
--listen-host LISTEN_HOST	サーバーが使用するホスト名。
--listen-port LISTEN_PORT	サーバーが使用するリスニングポート。
--share	パブリックURLを作成します。これはGoogle ColabなどでウェブUIを実行するのに便利です。
--auto-launch	起動時にウェブUIをデフォルトブラウザで自動的に開きます。
--gradio-auth GRADIO_AUTH	"username:password"のようにgradioの認証を設定します。複数の場合はコンマで区切り、"u1:p1,u2:p2,u3:p3"のようにします。
--gradio-auth-path GRADIO_AUTH_PATH	gradioの認証ファイルパスを設定します。ファイルには1つ以上のuser:passwordペアが次のような形式で含まれている必要があります: "u1:p1,u2:p2,u3:p3"
--api	API拡張機能を有効にします。
--api-blocking-port API_BLOCKING_PORT	ブロッキングAPIのリスニングポート。
--api-streaming-port API_STREAMING_PORT	ストリーミングAPIのリスニングポート。
--public-api	Cloudfareを使用してAPIのためのパブリックURLを作成します。
--multimodal-pipeline MULTIMODAL_PIPELINE	使用するマルチモーダルパイプライン。例：llava-7b、llava-13b。

タグ：

+ タグ編集

「oobaboogaの引数表」をウィキ内検索

人気記事ランキング

最近更新されたページ

新規Wikiランキング

最近作成されたWikiのアクセスランキングです。見るだけでなく加筆してみよう！

人気Wikiランキング

atwikiでよく見られているWikiのランキングです。新しい情報を発見してみよう！

全体ページランキング

最近アクセスの多かったページランキングです。話題のページを見に行こう！

oobaboogaの引数表

メニュー

リンク

更新履歴