オプション | 説明 |
---|---|
-h, --help | ヘルプメッセージを表示して終了します。 |
--notebook | ノートブックモードでウェブUIを起動します。出力は入力と同じテキストボックスに書き込まれます。 |
--chat | キャラクター.AIのウェブサイトに似たスタイルでチャットモードでウェブUIを起動します。 |
--multi-user | マルチユーザーモード。チャット履歴は保存または自動的に読み込まれません。警告:これは非常に実験的です。 |
--character CHARACTER | チャットモードでデフォルトでロードするキャラクターの名前。 |
--model MODEL | デフォルトでロードするモデルの名前。 |
--lora LORA [LORA ...] | ロードするLoRAのリスト。複数のLoRAをロードする場合は、スペースで区切って名前を指定します。 |
--model-dir MODEL_DIR | すべてのモデルが格納されたディレクトリへのパス。 |
--lora-dir LORA_DIR | すべてのLoRAが格納されたディレクトリへのパス。 |
--model-menu | ウェブUIが最初に起動されたときにターミナルにモデルメニューを表示します。 |
--no-stream | テキストの出力をリアルタイムでストリームしません。 |
--settings SETTINGS | このyamlファイルからデフォルトのインターフェース設定をロードします。 |
--extensions EXTENSIONS [EXTENSIONS ...] | ロードする拡張機能のリスト。複数の拡張機能をロードする場合は、スペースで区切って名前を指定します。 |
--verbose | プロンプトをターミナルに表示します。 |
--loader LOADER | モデルローダーを手動で選択します。それ以外の場合は自動検出されます。 |
--cpu | テキスト生成にCPUを使用します。警告:CPUでのトレーニングは非常に遅くなります。 |
--auto-devices | 利用可能なGPUとCPUにモデルを自動的に分割します。 |
--gpu-memory GPU_MEMORY [GPU_MEMORY ...] | GPUごとに割り当てる最大GPUメモリ(GiB)。 |
--cpu-memory CPU_MEMORY | オフロードされた重み用に割り当てる最大CPUメモリ(GiB)。 |
--disk | モデルがGPUとCPUの両方のメモリを超える場合、残りのレイヤーをディスクに送信します。 |
--disk-cache-dir DISK_CACHE_DIR | ディスクキャッシュを保存するディレクトリへのパス。デフォルトは "cache" です。 |
--load-in-8bit | 8ビット精度でモデルをロードします(bitsandbytesを使用)。 |
--bf16 | bfloat16精度でモデルをロードします。NVIDIA Ampere GPUが必要です。 |
--no-cache | テキスト生成時にuse_cacheをFalseに設定します。これにより、VRAMの使用量が少し減少しますが、パフォーマンスが低下します。 |
--xformers | xformerのメモリ効率の良いアテンションを使用します。これにより、トークン/秒が増加するはずです。 |
--sdp-attention | torch 2.0のsdpアテンションを使用します。 |
--trust-remote-code | モデルをロードする際にtrust_remote_code=Trueを設定します。ChatGLMとFalconに必要です。 |
--load-in-4bit | 4ビット精度でモデルをロードします(bitsandbytesを使用)。 |
--compute_dtype COMPUTE_DTYPE | 4ビットの計算精度を指定します。有効なオプション: bfloat16、float16、float32。 |
--quant_type QUANT_TYPE | 4ビットの量子化タイプを指定します。有効なオプション: nf4、fp4。 |
--use_double_quant | 4ビットでの使用時にuse_double_quantを指定します。 |
--threads THREADS | 使用するスレッドの数。 |
--n_batch N_BATCH | llama_evalを呼び出す際に一緒にバッチ化する最大プロンプトトークンの数。 |
--no-mmap | mmapを使用しないようにします。 |
--low-vram | 低VRAMモード。 |
--mlock | システムにモデルをRAMに保持させるようにします。 |
--cache-capacity CACHE_CAPACITY | 最大キャッシュ容量。単位なしで提供された場合、バイトが想定されます。 |
--n-gpu-layers N_GPU_LAYERS | GPUにオフロードするレイヤーの数。 |
--n_ctx N_CTX | プロンプトコンテキストのサイズ。 |
--llama_cpp_seed LLAMA_CPP_SEED | llama-cppモデル用のシード。デフォルトは0(ランダム)。 |
--wbits WBITS | 指定された精度(ビット単位)の事前量子化モデルをロードします。サポートされているオプション: 2、3、4、8。 |
--model_type MODEL_TYPE | 事前量子化モデルのモデルタイプ。現在、LLaMA、OPT、GPT-Jがサポートされています。 |
--groupsize GROUPSIZE | グループサイズ。 |
--pre_layer PRE_LAYER [PRE_LAYER ...] | GPUに割り当てるレイヤーの数。これを設定すると、4ビットモデルのためにCPUオフロードが有効になります。 |
--checkpoint CHECKPOINT | 量子化チェックポイントファイルへのパス。指定しない場合、自動的に検出されます。 |
--monkey-patch | モンキーパッチを適用して、量子化モデルでLoRAを使用します。 |
--quant_attn | (triton)量子アテンションを有効にします。 |
--warmup_autotune | (triton)ウォームアップオートチューニングを有効にします。 |
--fused_mlp | (triton)融合MLPを有効にします。 |
--gptq-for-llama | 廃止予定 |
--autogptq | 廃止予定 |
--triton | Tritonを使用します。 |
--no_inject_fused_attention | フューズドアテンションを使用しません(VRAMの要件を低減させます)。 |
--no_inject_fused_mlp | Tritonモードのみ: フューズドMLPを使用しません(VRAMの要件を低減させます)。 |
--no_use_cuda_fp16 | 一部のシステムでモデルを高速化することができます。 |
--desc_act | quantize_config.jsonが存在しないモデル用のパラメーターで、BaseQuantizeConfigでdesc_actを設定するかどうかを定義します。 |
--gpu-split GPU_SPLIT | モデルのレイヤーごとに使用するVRAM(GB)のカンマ区切りリスト。例: 20,7,7 |
--max_seq_len MAX_SEQ_LEN | 最大シーケンス長。 |
--compress_pos_emb COMPRESS_POS_EMB | 位置埋め込みの圧縮係数。通常、max_seq_len / 2048に設定する必要があります。 |
--alpha_value ALPHA_VALUE | NTK RoPEスケーリングの位置埋め込みのアルファ係数。上記と同じです。これまたはcompress_pos_embのいずれかを使用しますが、両方を使用しないでください。 |
--flexgen | 廃止予定 |
--percent PERCENT [PERCENT ...] | FlexGen: 割り当てパーセンテージ。スペースで区切られた6つの数字を指定する必要があります(デフォルト:0、100、100、0、100、0)。 |
--compress-weight | FlexGen: 重み圧縮を有効にします。 |
--pin-weight [PIN_WEIGHT] | FlexGen: 重みをピン留めするかどうか(これをFalseに設定すると、CPUメモリが20%削減されます)。 |
--deepspeed | DeepSpeed ZeRO-3を統合したTransformersの使用を有効にします。 |
--nvme-offload-dir NVME_OFFLOAD_DIR | DeepSpeed: ZeRO-3 NVMEオフロードに使用するディレクトリ。 |
--local_rank LOCAL_RANK | DeepSpeed: 分散セットアップのためのオプション引数。 |
--rwkv-strategy RWKV_STRATEGY | RWKV: モデルをロードする際に使用するストラテジー。例:「cpu fp32」、「cuda fp16」、「cuda fp16i8」。 |
--rwkv-cuda-on | RWKV: パフォーマンス向上のためにCUDAカーネルをコンパイルします。 |
--listen | ウェブUIをローカルネットワークからアクセス可能にします。 |
--listen-host LISTEN_HOST | サーバーが使用するホスト名。 |
--listen-port LISTEN_PORT | サーバーが使用するリスニングポート。 |
--share | パブリックURLを作成します。これはGoogle ColabなどでウェブUIを実行するのに便利です。 |
--auto-launch | 起動時にウェブUIをデフォルトブラウザで自動的に開きます。 |
--gradio-auth GRADIO_AUTH | "username:password"のようにgradioの認証を設定します。複数の場合はコンマで区切り、"u1:p1,u2:p2,u3:p3"のようにします。 |
--gradio-auth-path GRADIO_AUTH_PATH | gradioの認証ファイルパスを設定します。ファイルには1つ以上のuser:passwordペアが次のような形式で含まれている必要があります: "u1:p1,u2:p2,u3:p3" |
--api | API拡張機能を有効にします。 |
--api-blocking-port API_BLOCKING_PORT | ブロッキングAPIのリスニングポート。 |
--api-streaming-port API_STREAMING_PORT | ストリーミングAPIのリスニングポート。 |
--public-api | Cloudfareを使用してAPIのためのパブリックURLを作成します。 |
--multimodal-pipeline MULTIMODAL_PIPELINE | 使用するマルチモーダルパイプライン。例:llava-7b、llava-13b。 |
最近作成されたWikiのアクセスランキングです。見るだけでなく加筆してみよう!
atwikiでよく見られているWikiのランキングです。新しい情報を発見してみよう!
最近アクセスの多かったページランキングです。話題のページを見に行こう!