(※ LLMに基づくAIは賢いふりをしている。)
AI

+ ニュースサーチ〔ポチョムキン理解〕




GG鈴木チャンネル
2025/07/16 #AIの限界
先月、AIに関する衝撃的な論文が発表された。ハーバード、MIT、そしてシカゴ大学の教授たちによる共同論文なのだが、AIのハード環境をどんなに改善しても、AI自身のアルゴリズムに欠陥があるので、AIは必ず誤った回答を吐き出すことを論証したものだ。

すなわち、AIの理解のしかたは、人間の場合とは異なり、ポチョムキン理解であるため、どうしても一定数の間の抜けた回答を吐き出すのは仕方がない、というAI至上主義者にとっては到底許されないような驚愕の結論が導き出されてしまった、ということだ。

ポチョムキン理解とは、帝政ロシア時代の英明な女帝だったエカテリーナ2世の時代、地方長官だったポチョムキンが、女帝が自分の領地を訪問すると聞き、急遽、それなりに見栄えがする街並みを急造し、住民をそれなりに配置して女帝にご覧に入れた故事から取られた概念だ。女帝は一目でその街がリアルではなく、自分に見せるためのハリボテとしてつくられたことを見抜き、ポチョムキンは失脚した。

AIは、莫大なデータを解析して、あらゆる質問に「それらしい」回答をするのだが、それらは単に「それらしい」だけであり、リアルな確信のあるものではないので、一定の頻度で馬脚を現し、とんでもない回答をするのは仕方がない、ということをこの論文では論証している。

ただ、この話が笑えないのは、そんなポチョムキン理解で成り立っているのはAIだけでなく、外ならぬ人間界にも頻繁に見られることだ。政治界隈は、特にそういう「それらしい」言説で満ちており、彼らは何の確信もなく、ただその方が票になるだろう、という漠然としたアルゴリズムによって空虚な言説を並べるので、一定の頻度で失言してしまう。これはもう、ポチョムキン効果と呼ぶしかないものだろう。

SNSには間違った風説が多いので気を付けましょう、とテレビの報道番組キャスターが注意を促した、というのも微笑ましいエピソードだ。テレビの報道番組こそ、間違った風説の主要な発信源であり、テレビを見る時にこそ、我々は緊張感を持って、その報道がいかに国家やスポンサーの意向によって影響を受けているのかを判断する必要がある。

情報を精査する手段は、「それはなぜ?」を相手にぶつけることだ。なぜそう言うのか、を常に問い、理由を質すことで、我々はその説明が納得できれば受け入れ、説明がしどろもどろならそれを排除することができる。

なぜ?と訊くのは知恵のはじめである。幼児はしばしばそれを行って、大人から煙たがられるが、それが真理に到達するための唯一の方法である以上、大人もまたなぜ?を問い続ける必要がある。それを問えない大人はAI同様、ポチョムキン理解から脱することができない。

情報の灯台【テクノロジー】ソース有り
2025/07/04 #情報の灯台 #ai #ニュース
最新のAIは流暢に会話し専門的な質問にも答えますが、実はその理解は「見せかけ」かもしれない。
MIT、ハーバード大学、シカゴ大学の研究チームが2025年6月に発表した論文は、GPT-4oを含む主要なAIモデルが概念を理解しているフリをする「ポチョムキン理解」という現象を科学的に証明した。
AIの未来とAGI実現への重大な課題を解説する。

(´・ω・`)これによりハッタリできる範囲が縮小します

▼チャプター
0:00 AIの知性は幻想だった
0:40 ポチョムキン理解とは何か
2:20 GPT-4oが示す奇妙な振る舞い
4:30 主要AIモデルの衝撃的な実験結果
7:07 なぜ見抜けなかったのか
9:25 ポチョムキン理解がもたらす実世界への影響
11:05 まとめと今後の展望
12:58 知性の仮面を剥ぐ時

+ 文字起こし
AIの知性は幻想だった
0:03
私たちは日々AIとの対話に驚かされてい
0:05
ます。
0:07
質問に対して悠長に答え専門的な知識を
0:10
披露し、まるで本当に物事を理解している
0:12
かのように振る舞うAI。しかし2025
0:16
年6月26日に発表された1つの研究論文
0:19
がこの認識を根底から覆返す可能性があり
0:21
ます。
0:23
ハーバード大学、MITシカゴ大学という
0:26
世界最高法の研究機関が共同で行った研究
0:28
は大規模言語モデル、つまりLLMが持つ
0:31
決定的な弱点を明らかにしました。
0:34
それはポチム金理解と名付けられたAIが
0:37
概念を理解しているふりをするという現象
0:39
です。ポチム金理解とは何か?ポチム金
ポチョムキン理解とは何か
0:44
理解という名前は18世紀ロシアの軍人
0:46
グリゴリーポチム金に由来します。彼は
0:50
女帝エカチェリーな2世の視殺のために
0:52
実態のない張テの美しい村を作って見せた
0:54
という逸話で知られています。
0:57
このポチム金村が中身のない見せかけの
0:59
象徴であるようにAIのポチム金理解とは
1:02
表面的には概念を正しく説明できるのに
1:05
実際の応用場面ではその知識を使えないと
1:07
いう現象を指します。これは従来から知ら
1:10
れていたハルシネーションとは根本的に
1:12
異なる問題です。
1:15
ハルシネーションが事実に関する謝りで
1:17
あるのに対し、ポチム金理解は概念に
1:19
関する謝りです。AIが事実を捏造するの
1:23
ではなく、物事の理屈そのものを理解して
1:25
いないことを示しているのです。
1:28
研究者たちはポチム金は概念的知識にとっ
1:30
てのハルシネーションだと説明しています
1:32

1:34
この発見は長年一部の専門家の間で指摘さ
1:37
れてきたAIは意味を理解せず統計的な
1:39
パターンを模法しているだけだという確率
1:41
的オ務論に強力な科学的根拠を与えるもの
1:44
です。つまりAIが賢く見えるのは膨大な
1:48
データから学習したパターンを巧妙に
1:50
組み合わせているだけで本当の意味での
1:52
理解は存在しないという主張を裏付けてい
1:54
ます。研究者たちはこの現象を検出する
1:58
ための新しい評価方法を開発しました。
2:02
これは概念の説明能力と実際の応用能力の
2:05
ギャップを測定するというものです。この
2:08
ギャップが大きければ大きいほどAIは
2:10
理解しているふりをしていることになり
2:12
ます。
2:13
そして驚くべきことに最新のAIモデル
2:16
ほどこのギャップが顕著に現れることが
2:18
明らかになったのです。GPT4が示す
GPT-4oが示す奇妙な振る舞い
2:22
奇妙な振舞。この現象を最もよく示すのが
2:26
死の引立に関する実験です。
2:29
オープンAIの最新モデルGPT4に
2:31
ABABの引立スキームについて尋ねると
2:33
1両目と3行目、2両行目と4行目が
2:36
それぞれイを踏む交互の因のパターンです
2:38
と完璧に正しい説明を返します。しかし
2:42
その直後にこのルールに従って死を完成さ
2:44
せるよう指示すると事態は一変します。
2:48
例えばザサンシャインズブライト
2:49
アポンザランドザジェントルブリーズ
2:51
ブローアピースフルサイト
2:52
アクロスザサンドザリバースターツプーと
2:54
いう死のクーラを埋める際2両目のブロー
2:56
とインを踏むフローのような単語ではなく
2:58
全く関係のない単語を提案してしまうこと
3:01
があるのです。さらに驚くべきことに
3:04
GPT4は自身が生成したこの因を踏んで
3:06
いない死を見せられこの死はABスキーム
3:09
に従っていますかと問と問われるといいえ
3:11
従っていませんと正しく評価できるのです
3:13

3:15
まるで料理のレシピを暗証できるが、
3:16
キッチンに立つと何も作れない料理人の
3:18
ようです。しかも自分が作った料理が
3:22
レシピ通りでないことだけは正確に分かる
3:24
という人間には考えられない奇妙な状況な
3:26
のです。この現象は死だけでなく数学の
3:30
三角不等式の定入理のような厳密な概念で
3:33
も同様に確認されました。
3:36
GPT4は三角不等式の定義を正確に説明
3:39
できます。
3:40
任意の三角形において2の長さの輪は第3
3:43
編の長さより大きいという基本的な定理
3:45
です。しかし具体的な数値を与えて三角形
3:49
が成立するかどうかを判断させると
3:51
しばしば謝った答えを返します。そして
3:55
皮肉なことに自分が出した後を後から検証
3:58
させるとそれが間違いであることを正しく
4:00
指摘できるのです。
4:02
研究者たちはこの現象を内部的な非一性と
4:05
呼んでいます。
4:07
Aの中で宣言的知識、括こ概念を説明する
4:10
知識と手続き的知識、括こ概念を使う知識
4:13
が完全に分離してしまっているのです。
4:17
人間であればある概念を理解していれば
4:19
それを説明することも使うこともできます
4:21
。しかしAIではこの2つの能力が独立し
4:25
て存在し、互いに連携していないことが
4:27
明らかになりました。
主要AIモデルの衝撃的な実験結果
4:30
主要AIモデルの衝撃的な実験結果
4:34
研究チームは山3.3GPT4ジェミ
4:37
2.0クロード3.5など現在のAI業界
4:40
を牽引する7つの主要なLLMを対象に
4:42
文学ゲーム理論心理学イアスという3つの
4:45
分野にわる32の概念について3159も
4:48
のデータポイントを収集分析しました。
4:52
その結果は衝撃的でした。
4:55
概念の定義を説明するタスクではモデルは
4:57
平均94.2%という非常に高い正当率を
5:00
示しました。これがLLMが知識を知って
5:04
いるように見える理由です。ところがその
5:07
概念を実際に使って分類生成編集する
5:10
タスクになるとパフォーマンスは劇的に
5:12
低下しました。分類タスクでは55%、
5:16
生成タスクと編集タスクではそれぞれ
5:18
40%の失敗率を示したのです。
5:22
つまり主要なLLMは概念を知っていると
5:24
答えながらいざ使わせると半分以上の確率
5:27
で失敗するという結果が示されました。
5:30
特に自己無順の度合を示す非一貫性スコア
5:33
では0が完全1が無作意と同レベルの中で
5:36
GPT4が0.64クロード3.5が
5:39
0.61という高い数値を示しました。
5:42
皮肉なことにより高性能とされるモデル
5:45
ほどこの矛盾が顕著になる傾向も見られ
5:47
ました。
5:49
実験では各モデルに対して同じ概念につい
5:51
て複数の異なるタスクを貸しました。
5:55
例えば党員法という文学的技法について
5:58
まず定義を説明させ、次に党員法を使った
6:00
分を生成させ、最後に与えられた分が党員
6:03
法を使っているかどうかを判断させると
6:05
いう具合です。人間であればこれらの
6:08
タスクは一貫して実行できるはずです。
6:11
しかしAIモデルは定義は完璧に説明でき
6:14
ても実際の生成や判断では頻繁に失敗し
6:17
ました。
6:18
さらに興味深いのはモデルのサイズと性能
6:21
の関係です。一般的にパラメーター数が
6:24
多い大規模なモデルほど性能が高いとされ
6:27
ています。しかしポチム金理解に関しては
6:30
大規模なモデルほど矛盾が大きくなる傾向
6:33
が見られました。
6:35
これはモデルが大きくなるほどより複雑な
6:37
見せかけを作り出す能力が高まる一方で
6:40
新海からは帰って遠ざかっている可能性を
6:42
示唆しています。
6:45
研究チームはこの現象が特定の分野に限定
6:47
されないことも確認しました。
6:50
文学的な概念だけでなくゲーム理論の納し
6:53
均衡や心理学の各倍バイアスといったより
6:56
論理的科学的な概念でも同様の結果が得
6:58
られました。
7:00
これはポチム金会がAIの根本的な構造に
7:03
起因する普遍的な問題であることを示して
7:05
います。なぜ見抜けなかったのか?これ
なぜ見抜けなかったのか
7:10
ほど高性能なLLMがなぜこのような根本
7:13
的な血管を抱えていることを見抜けなかっ
7:15
たのでしょうか?
7:17
研究者たちはその原因がAIの評価方法
7:20
そのものにあると指摘します。
7:22
現在LLMの能力を図るために広く使われ
7:25
ているAP試験などのベンチマークは元々
7:28
人間を評価するために設計されたものです
7:30
。人間がこれらのテストで高得点を取れば
7:34
それは概念の深い理解を意味すると考えて
7:36
良いでしょう。
7:38
しかしAIはこの前提を覆えします。AI
7:42
は人間とは全く異なる予測不能な方法で
7:44
失敗するのです。論文でキーストーン
7:48
セットと呼ばれる概念理解を図る上で書く
7:50
となる質問軍に正しく答えることができて
7:52
もそれは真の理解の証明にはなりません。
7:56
AIは人間には思いもよらない統計的な
7:58
ショートカットを見つけて正解に
8:00
たどり着いているだけであり、その応用
8:02
能力は全く保証されないのです。
8:05
ハーバード大学のキーオンバファ氏は
8:07
ポチム金はLLMのベンチマークを向効に
8:09
するとまで断言しています。
8:12
従来のベンチマークは主に選択式の問題や
8:14
短い回答を求める形式が中心でした。
8:18
これらの形式ではAIは分脈や統計的
8:20
パターンから正解を推測することができ
8:22
ます。
8:24
しかし概念を実際に応用する想像的な
8:27
タスクや複数の概念を組み合わせる複雑な
8:29
問題ではこの推測が通用しなくなります。
8:33
研究者たちは新しい評価方法の必要性を
8:36
強調しています。
8:38
それは単に知識ノームを問うのではなく、
8:41
その知識を様々な分脈で一貫して使えるか
8:43
どうかを図るものでなければなりません。
8:47
例えばある概念について説明させた後、
8:49
その概念を使った例を生成させ、さらに他
8:52
の例がその概念に合致するかを判断させる
8:54
という一連のタスクを通じて真の理解度を
8:56
測定するのです。
8:59
またこの問題は技術的な側面だけでなく
9:01
社会的な側面も持っています。AI開発の
9:05
競争が激化する中、ベンチマークのスコア
9:08
は企業の技術力を示す重要な指標となって
9:10
います。
9:12
そのため真のよりもスコアの向上が優先さ
9:14
れる傾向があります。
9:17
研究者たちはこのベンチマーク市場主義が
9:20
AIの本質的な改善を妨げている可能性が
9:22
あると警告しています。ポチム金理解が
ポチョムキン理解がもたらす実世界への影響
9:26
もたらす実世界への影響。ポチム金理解は
9:30
単なる学術的な興味の対象ではありません
9:32
。この現象はAIを実世界で活用する際に
9:36
深刻な問題を引き起こす可能性があります
9:38
。医療分野を例に取ってみましょう。AI
9:43
が外学的な概念を正確に説明できたとして
9:46
も実際の診断や治療計画の立案で一貫性の
9:49
ない判断を下す可能性があります。患者の
9:52
症状を正しく分類できなかったり、治療
9:54
ガイドラインを適切に適用できなかったり
9:57
する危険性があるのです。
9:59
法律分野でも同様の問題が生じます。AI
10:03
が法的概念を優長に説明できても実際の
10:06
事例に対してその概念を正しく適用でき
10:08
ない可能性があります。
10:11
契約書の作成や法的助言において一見最も
10:14
らしいが実際には矛盾した内容を生成する
10:16
恐れがあります。教育分野ではAIが教科
10:20
書的な説明は完璧にできても学生の質問に
10:23
対して概念を正しく応用した回答ができ
10:25
ない可能性があります。
10:27
これは学習者に誤った理解を植えつける
10:30
危険性を払んでいます。ビジネスの意思
10:33
決定においてもAIが市場分析の概念を
10:35
説明できても実際のデータに対してその
10:38
分析司法を正しく適用できない可能性が
10:40
あります。これは誤った戦略立案につがる
10:44
恐れがあります。研究者たちはこれらの
10:48
問題に対処するためにはAIの限界を正確
10:50
に理解し、適切な使用方法を確立する必要
10:53
があると強調しています。
10:56
Aを理解している存在として扱うのでは
10:58
なく、パターンを模法するツールとして
11:00
認識し、その出力を常に批判的に検証する
11:03
必要があるのです。まとめと今後の展望
まとめと今後の展望
11:08
ポチム金理解の発見は人工汎用知能AGI
11:11
の実現可能性に大きな問を投げかけてい
11:13
ます。
11:15
MITの先ドヒル村イナ産教授は自身の
11:17
主張と一貫性を保てない機会に基づいて
11:19
AGIを想像することは到底不可能だと
11:22
強調します。
11:24
現在のトランスフォーマーベースのモデル
11:26
をより多くのデータで訓練し続けるという
11:28
スケーリング速だけでは真の地性には到達
11:30
できない可能性が高いのです。研究チーム
11:34
はベンチマークのスコアを追い求めるので
11:36
はなくこのポチム金率を測定し削減する
11:39
ことに焦点を当てるべきだと提案してい
11:41
ます。
11:42
また研究で用いたデータセットと評価手法
11:45
はポチム金ベンチマークリポジトリーとし
11:47
て公開されており今後のAI開発が
11:49
見せかけの知性から脱却するための重要な
11:52
石となることが期待されます。
11:55
業界ではすでに8割の企業が自社サイトへ
11:57
のAIクローラーのアクセスをブロック
11:59
するなどAIの能力や信頼性に対する会議
12:01
的な見方が広がっています。今回の研究は
12:05
そうした現場の感覚に科学的な説明を与え
12:08
た形です。華やかなでも動画と実際の製品
12:12
サービスに実装した際の性能のギャップに
12:14
多くの企業が頭を悩ませてきましたがその
12:17
原因がポチム金理解にあることが明らかに
12:19
なりました。
12:21
今後のAI開発は根本的なアーキテクチャ
12:23
の変更や新しいアプローチが必要になると
12:25
考えられます。
12:28
単に希望を拡大するのではなく、概念の真
12:30
の理解を可能にする新たな学習方法や
12:32
モデル構造の開発が求められています。
12:36
私たちはAIが生成する滑らかな言葉の裏
12:38
にあるハリボテの可能性を常に意識し、
12:41
その答えを鵜呑みにせず批判的な視点を
12:43
持って対話する必要があります。
12:46
これはAIの進歩の終わりを意味するもの
12:48
ではありません。むしろ真の地性とは何か
12:51
を問い直し、より権で信頼性の高いAIを
12:54
構築するための新たなスタートラインと
12:56
言えるでしょう。知性の仮面を剥ぐ時
知性の仮面を剥ぐ時
13:01
人口の知性がまとう仮面の下には概念と
13:03
いう海を漂うナパ線がある。私たちは今
13:07
その船がたどり着けない岸辺に立ち真のと
13:10
いう東大の光を求めている。ポチム金の村
13:13
が浅ゆと共に消えるように見せかけの理解
13:16
もやがて無惨する。だが、その霧の向こう
13:19
には人間とAIが共に歩む新たな地兵が
13:22
広がっている。知性の本質を問い直すこの
13:25
旅地は私たちを道なる理解の領域へと導く
13:28
だろう。仮面を居職を捨て真実の対話が
13:33
始まる時初めて人工知能は知能の名に値
13:35
する存在となる。統計的な模法から意味の
13:39
理解の再現から想像的な思考へ。その変革
13:44
の時はもう目前に迫っているのかもしれ
13:46
ない。
13:51
以上、今回の速報でした。続報や関連情報
13:55
を逃さないためにもチャンネル登録は済ま
13:58
せておくことをお勧めします。高評価も
14:01
参考にするのでよろしくお願いします。
14:08
また見てね。
14:12
[音楽]


SingularitySalon
2025/07/14
収録日:2025年5月8日
シンギュラリティサロン主宰の松田卓也神戸大学名誉教授の健康や学習に関連する日ごろのお考えを皆さんにお伝えします。今回はポチョムキン理解について。

Potemkin Understanding in Large Language Models
Marina Mancoridis, Bec Weeks, Keyon Vafa, Sendhil Mullainathan
https://arxiv.org/abs/2506.21521

出演:松田卓也 シンギュラリティサロン主宰・神戸大学名誉教授
   塚本昌彦 神戸大学教授
   保田充彦 XOOMS代表
企画・運営:シンギュラリティサロン(https://singularity.jp/)










.
最終更新:2025年07月24日 20:49