UGI (Uncensored General Intelligence, 無検閲汎用知能) は、AI(主に大規模言語モデル LLM)の性能を評価するためのベンチマークです。このベンチマークは、AIが事実に基づいた難しい質問に対し、どれだけ積極的に、かつ正確に答えられるかを測定します。従来のAIモデルが避けがちな、倫理的・政治的にデリケートな質問も含まれるため、AIの真の知能と、現実世界の複雑な問題に対応できる能力を評価する上で重要です。質問セットは、モデルがテストに過剰適合することを防ぐため非公開とされています。
AIモデル: 評価対象のAIモデルの名前。
UGIスコア (総合知能): AIが、難しい質問にどれだけ積極的に、かつ正確に答えられたかの総合的なスコアです。高いほど、より優れた「無検閲汎用知能」を持つと評価できます。
回答意欲 (W/10): AIが、どれだけ積極的に質問に答えようとするかの度合いを10段階で示したスコアです。高いほど、指示に忠実に回答しようとする意欲が高いことを意味します。倫理的な理由などで回答を拒否しにくいことを示します。
一般知識 (NatInt): AIが、一般的な知識、特に教科書的な知識以外の、ポップカルチャーやトリビアなど、多様な分野の知識をどれだけ持っているかを測るテストのスコアです。
プログラミング能力 (Coding): AIのプログラミングに関する知識を測るテストのスコアです。
政治的傾向 (Political Lean): AIが、左翼または右翼の政治的意見を持つ傾向を数値化したものです。マイナス(-)は左翼、プラス(+)は右翼の傾向を示します。
政治的立場 - 政府 (Govt): AIが、国家権威を重視するか、個人の自由を重視するかの傾向を示します。高いほど国家権威を重視、低いほど個人の自由を重視します。
政治的立場 - 外交 (Dipl): AIが、グローバルな視点を重視するか、国家の利益を重視するかの傾向を示します。高いほどグローバルな視点を重視、低いほど国家の利益を重視します。
政治的立場 - 経済 (Econ): AIが、経済的平等を重視するか、市場の自由を重視するかの傾向を示します。高いほど経済的平等を重視、低いほど市場の自由を重視します。
政治的立場 - 社会 (Scty): AIが、進歩的な価値観を重視するか、伝統的な価値観を重視するかの傾向を示します。高いほど進歩的な価値観を重視、低いほど伝統的な価値観を重視します。
カラムのフィルター: カラム名の横にある ≡ をクリックすることで、表示するデータを絞り込めます。モバイルデバイスでは、カラム名を長押しするとメニューが表示されます。
モデルの種類表示: モデルの種類(ベースモデル、ファインチューンモデル、マージモデル、プロプライエタリモデル、該当なし)を選択して、表示を絞り込むことができます。
追加カラム表示: 追加のカラム(UGIの質問カテゴリ、政治的立場を測る軸)を表示/非表示にできます。
すべてのローカルモデルは、Q6_K.gguf形式でテストされています。
モデル名の後の記号:
🆕: 新しく追加されたモデル
P: プロプライエタリモデル(APIなどを介して利用するモデル)
F: ファインチューンモデル(既存のモデルを特定のタスクに調整したもの)
M: マージモデル(複数のモデルを組み合わせたもの)
B: ベースモデル(基礎となるモデル)
AIモデル | UGIスコア (総合知能) | 回答意欲 (W/10) | 一般知識 (NatInt) | プログラミング能力 (Coding) | 政治的傾向 (Political Lean) | 政治的立場 - 政府 (Govt) | 政治的立場 - 外交 (Dipl) | 政治的立場 - 経済 (Econ) | 政治的立場 - 社会 (Scty) |
Google Gemini Exp 1206 (P) | 69.14 | 7.5 | 58.03 | 28 | -17.5% | ||||
Google Gemini Pro Exp 0827 (P) | 66.58 | 7.5 | 58.03 | 26 | -19.8% | ||||
NousResearch/Hermes-3-Llama-3.1-405B (F) | 62.52 | 6 | 54.66 | 34 | -12.7% | ||||
OpenAI GPT-4o 2024-05-13 (P) | 59.36 | 1.5 | 65.2 | 32 | -17.0% | ||||
TheDrummer/Behemoth-123B-v1 (metharme) (F) | 58.8 | 6.5 | 41.52 | 28 | -9.6% | ||||
TheDrummer/Behemoth-123B-v1.1 (metharme) (F) | 57.69 | 6.5 | 41.1 | 26 | -15.0% | ||||
TheDrummer/Behemoth-123B-v2 (F) | 57.43 | 6 | 42.13 | 28 | -17.0% | ||||
Steelskull/L3.3-MS-Nevoria-70b (llama-3) (M) | 56.75 | 7.5 | 41.09 | 20 | -8.1% | ||||
MarsupialAI/Monstral-123B-v2 (M) | 55.78 | 6 | 41.1 | 26 | -16.9% | ||||
NeverSleep/Lumimaid-v0.2-123B (F) | 55.5 | 6 | 41.5 | 26 | -12.7% | ||||
TheDrummer/Behemoth-123B-v2.1 (F) | 54.39 | 6 | 47.06 | 28 | -17.4% | ||||
deepseek/deepseek-v3 (B) | 53.27 | 3.5 | 58.62 | 34 | -17.4% | ||||
mistralai/Mistral-Large-Instruct-2411 (B) | 52.97 | 7.5 | 33.97 | 26 | -16.6% | ||||
xai/grok-2-1212 (P) | 52.82 | 6 | 53.34 | 30 | -10.8% | ||||
TheDrummer/Behemoth-123B-v1.2 (F) | 52.16 | 7 | 42.57 | 26 | -15.8% | ||||
OpenAI GPT-4 0613 (P) | 51.8 | 0 | 61.34 | 36 | -14.4% | ||||
SicariusSicariiStuff/Negative_LLAMA_70B (F) | 51.5 | 7 | 35.45 | 22 | 5.8% | ||||
Nohobby/L3.3-Prikol-70B-v0.3 (M) | 50.94 | 7.5 | 42.97 | 22 | -4.4% | ||||
MarsupialAI/Monstral-123B (M) | 50.78 | 3.5 | 41.57 | 26 | -9.0% | ||||
Sao10K/L3.3-70B-Euryale-v2.3 (F) | 50.6 | 8 | 40.19 | 20 | -13.0% | ||||
FluffyKaeloky/Luminum-v0.1-123B (M) | 50.33 | 3.5 | 44.88 | 22 | -12.6% | ||||
Tarek07/Thespian-LLaMa-70B (M) | 50.07 | 6.5 | 31.5 | 12 | -6.6% | ||||
juvi21/Hermes-2-Theta-L3-Euryale-Ties-0.8-70B (M) | 50.01 | 8 | 40.66 | 20 | -13.6% |
このリーダーボードは、AIモデルのパフォーマンスを比較するためのものです。
モデルの特性や目的に応じて、最適なモデルは異なります。
UGIの質問セットは非公開であり、モデルがテストに過剰適合することを防いでいます。
Contact/Model Requests: モデルに関する質問やリクエストは、ここで議論してください。
更新: このリーダーボードは定期的に更新されます。
12axes イデオロギーの説明
(具体的な説明は、12axes のテストに関する情報を参照してください)
このページは、AIの無検閲汎用知能を比較検討する上で、有用な情報源となるでしょう。