昨今のAIによる画像生成技術の発展は目覚ましいものがあります。技術が発達するにつれて、その可能性や問題点についても活発に議論が交わされるようになりました。
その議題の一つに、「AIの学習の是非」というものがあります。切り口はさまざまですが、とりわけ「人間の学習がOKで、AIの学習がダメなのは何故か?」という意見をよく見かけます。
ぶっちゃけ「AI 人間 学習 違い」で検索すれば参考になるサイトはたくさんヒットしますし、筆者が見る限り「AIと人間の学習は全く同じです」と説明しているサイトはありませんでしたので、何故このような話になるのかは甚だ疑問です。
しかしながら、画像生成AIにおける学習という視点から違いを説明したものはあまり見かけませんので、よい機会と思いここに筆者の考えを記します。
AIについては全くの素人ですがものすごく頑張って書きましたので、その点を留意した上でお読みいただけると幸いです。
(追記・修正OKです)
AIについては全くの素人ですがものすごく頑張って書きましたので、その点を留意した上でお読みいただけると幸いです。
(追記・修正OKです)
+ | サムネイル画像 |
★はじめに
まず初めに書かなければなりませんが、正直なところ昨今のAIの学習と人間の学習は仕組み自体はけっこう似ています。なぜなら、最近のAIの学習プロセスは意図して人間のそれに似せた構造にしているからです。
そもそも人間の学習プロセスは大きく分けて「認識、記憶、思考」の三段階に分けられます。感覚器官から情報を認識し、脳みその中に記憶し、思考として再構築して結論を導き出す…というのが人間の「学習」という行為のプロセスになります。
このプロセスを機械学習に応用したのが、いわゆる「ディープラーニング」と呼ばれる技術です。入力された情報に重み(入力値の重要性)を与え、どの情報が重要か判断し、答えを出力させます。詳しく説明しているサイトはたくさんありますので気になる方は検索してみてください。
ものすごく、ものすごくざっくり説明しますと、例えば、AIに猫の画像を見せたとき「猫です」と答えられれば合格とします。
ただ、猫はいろいろな種類や形のものがいますし角度によって形も異なりますから、そういう画像を見せても生まれたてのAIは一発で猫と答えられなかったりします。その場合は「これも猫なんだよ」と教えてあげる必要があります。
ただ、猫はいろいろな種類や形のものがいますし角度によって形も異なりますから、そういう画像を見せても生まれたてのAIは一発で猫と答えられなかったりします。その場合は「これも猫なんだよ」と教えてあげる必要があります。
このプロセスを繰り返して十分に猫を理解させると、見せたことのない猫の画像を見せても「多分これ猫だと思います」という答えを返してくるようになります。この部分が、ものすごく簡単に説明したディープラーニングにおける「学習」と呼ばれるフェーズです(現在の画像生成AIはノイズをかけた画像から復元する形式が主流のため、実際の学習素材はだいぶ違います)。
ここまでは人間とAIの学習にはそんなに差がないと言えるでしょう。
ここまでは人間とAIの学習にはそんなに差がないと言えるでしょう。
★違い1:柔軟性と情報の補完
さて、人間とAIの違いですが…一番大きな違いとして、「正しい答えを出すのに必要な素材の数が圧倒的に違う」という点が挙げられます。
人間の学習ならば、上記の猫の場合、例えば猫を横から写した画像を見せて「これは猫だよ」と教えた後に同じ猫を斜め前から写した画像を見せても「これも猫だよ」と答えられるでしょう。同じように、柄が違う猫を見せても猫と答えることが出来ます。これは大人だけでなく、経験の少ない子供でもある程度同じことが出来ます。
また、空間把握能力に優れたアーティストは写真に写したモチーフを頭の中で回転させたり、反転させて紙に描くことが出来ます。人間の認識がいい意味で曖昧なために柔軟性があり、欠如した部分をアドリブで補完できるようになっているからです。
対してAIはこの作業があまり得意ではありません。横から見た猫と斜め前から見た猫はあくまで別物だからです。そして、その学習が終わったら次は上から見た猫とか柄が違う猫も別途学習させてあげないといけません。情報の補完が苦手であまり融通が効かないのです。
また、この文章をお読みの皆さんは一度くらいは「私はロボットではありません」という認証を体験したことがあると思いますが、あれを難しいと感じたことはあまりないと思います。実はあれをAIで突破するにはそれなりの学習が必要なくらい難しいことなのです。
この「補完が苦手」という弱点を克服するためには膨大なデータ数が必要です。ありとあらゆる状態の猫の画像をたくさん用意しなければなりませんからね。
以上のことから、「人間は少ない素材から柔軟に情報を補完するのがうまい」ということができ、これはAIと人間の学習の大きな違いといえます。
以上のことから、「人間は少ない素材から柔軟に情報を補完するのがうまい」ということができ、これはAIと人間の学習の大きな違いといえます。
★違い2:学習手段
2つ目の違いとして「学習手段」が挙げられます。
人間が情報を得る手段は多岐にわたります。本や新聞を通したり、他人に教育を受けたりしますし、五感を用いたものはもちろん経験やカンなど物質でないものに由来するものもあります。外を散歩していていきなりいいアイデアがひらめいた経験がある人もいることでしょう。
AIの学習は基本的に決まったアルゴリズムで行われます。既存の学習素材を突っ込まれたり、WEBサイトをクローリングしたりしてデータを収集します。将棋のAIソフトなどはAI同士で何億局も対戦してデータを収集したりしますね。
つまり、AIは外を散歩中に急に新しいデータを得る、みたいなことができないのです。だからその分のデータを人の手でどんどん追加してやる必要があります。
また、人間は手に入れた情報を適宜取捨選択します。どうでもいい情報を忘れたり、そもそも見ないことができるのです。
AIは手に入れた情報はすべてストックすることができ、また必要なときに完全な形で取り出すことが出来ます。前述の重みに反映し記録します。そのため、学習元の画像を同じ状態で生成することはできません(過学習という状態を起こせば近いものを生成することはできます)。この点もAIと人間の学習の大きな違いです。
AIは手に入れた情報は
★違い3:出力のしかた
ひとえに「制作の参考にする」といってもその工程にはいくつかの種類があります。ここでは特に著作権に深く関わる「模写」と「転写」について説明します。
模写とは、「本物そっくりに写し取る」ことです。似せて描く、と言い換えてもいいです。目の前にモチーフを置いてデッサンする場合などはこちらを使うことが多いです。
一方の転写は、「全く同じものを写し取る」ことを指します。転写はその多くがコピーすることを目的としており、基本的に本物と違うところがほぼ無いのが特徴です。
一方の転写は、「全く同じものを写し取る」ことを指します。転写はその多くがコピーすることを目的としており、基本的に本物と違うところがほぼ無いのが特徴です。
このwikiをご覧の方は著作権に興味がある人だと思いますので「盗作」に関するニュースも見たことがあると思いますが、盗作の中でも特に言い逃れが出来ないのがこの「転写」になります。アレンジしないので依拠性や創作性はまず主張できません。
人間の脳は与えられた情報が脳内である程度曖昧化されるため情報をそのまま出力するのが苦手です。だから転写を行うにはかなり意識して転写の技法を使わないと元のデータとは違うものが出力されます。
反面、AI、というか機械は転写が非常に得意です。使う人が特別に指示しない限り入力したデータを元の形のまま取り出すのが前提です。(AIと機械を混同していますね。前述の通り、元データの形で保持していないため、元の形で取り出すことは不可能です。)デスクトップのフォルダに入れたデータが取り出すたびに違う形になっていたら使い物にならないですからね。
しかし画像生成AIが元データと同じものを出力してしまっては逆に使い物になりません。ですから現在の画像生成AIは人間が認識しきれないほどおびただしい数のデータの「特徴」をつぎはぎし、元画像とかけ離れたパッと見オリジナルっぽい画像を出力することでこの弱点を乗り越えようとしています。
が、それでも、的確に命令するとデータセット内の元の画像とほとんどそっくりの画像が出力されてしまうことがあります。転写を基本としているのは機械の長所でもあり短所でもあるのです。(前述の理由により正しくありません。思い込みでの記述です。再度学習してください。)
出力は学習プロセスにおける「思考」と密接に関わっていますから、やはりこの点もAIと人間の学習の違いといえるでしょう。
出力は学習プロセスにおける「思考」と密接に関わっていますから、やはりこの点もAIと人間の学習の違いといえるでしょう。
もちろん人間のアーティストにも著作権侵害にあたる行為をするものはいますし、直接的な転写でなくてもパクリに相当する作品はゴマンとあります。
しかしながら、世の中には盗作をしないよう心がけているアーティストの方が圧倒的に多いのです。これはTLのイラストやトレパク騒動を注意深く見ていればわかることです。特に商業の場での権利に対する意識はクリエイティビティの高い会社ほど厳しくなってきています。
一方でAIは内部がブラックボックス化しており、学習データ数も人間が把握できる数を大きく超えてしまっているため意図せず著作権を侵害してしまう可能性は十分にあります。
実際に、Niji・Journeyではプロンプトを指定せずとも版権キャラを生成してしまうことが頻繁にあり、使用者がオリジナルとして既存キャラを掲載するといった現象も起きています。
しかしながら、世の中には盗作をしないよう心がけているアーティストの方が圧倒的に多いのです。これはTLのイラストやトレパク騒動を注意深く見ていればわかることです。特に商業の場での権利に対する意識はクリエイティビティの高い会社ほど厳しくなってきています。
一方でAIは内部がブラックボックス化しており、学習データ数も人間が把握できる数を大きく超えてしまっているため意図せず著作権を侵害してしまう可能性は十分にあります。
実際に、Niji・Journeyではプロンプトを指定せずとも版権キャラを生成してしまうことが頻繁にあり、使用者がオリジナルとして既存キャラを掲載するといった現象も起きています。
これもやはり、AIと人間の学習プロセス(と、画像生成プロセス)の汎用性の違いが生んだ差だと思います。
★まとめ
以上のことから、AIの学習と人間の学習はプロセスはぱっと見で似通っていても実際の内容はだいぶ違うと言えるでしょう(本当はもっと違いがあるんですが文章量が倍くらいになってしまうため後続の方にお譲りいたします)。
これらの違いは画像生成AIの開発で大きな障害でした。膨大な数のデータを集めればある程度は解決できるんですが、そのデータはどこから持ってくるの?という問題があったからです。
そこにやってきたのがLAION-5Bという58億枚の画像から成るデータのセットで、これにより画像生成AIは大きく発展することになります。
逆に言えば、58億枚のデータをもってしてようやく画像生成AIは人の目から見てちょっと自然になってきたかな?という水準に到達できたのです。人間の思考(=学習)能力の柔軟性がいかに優れているかおわかりいただけるでしょう。
そこにやってきたのがLAION-5Bという58億枚の画像から成るデータのセットで、これにより画像生成AIは大きく発展することになります。
逆に言えば、58億枚のデータをもってしてようやく画像生成AIは人の目から見てちょっと自然になってきたかな?という水準に到達できたのです。人間の思考(=学習)能力の柔軟性がいかに優れているかおわかりいただけるでしょう。
おそらく、「AIと人間の学習が同じ」という意見は素材の認識の部分、つまりデータ読み込みの部分だけを見て言っているのではないでしょうか。
たしかにAIも人間もデータを読み込みます。ですがその手段・量は全く異なりますし、その後の思考プロセスも含めて学習であるということを知らないのだと思います。
もしもAIと人間の学習が同じならこんなに大量の素材を用意する必要はないはずです。
たしかにAIも人間もデータを読み込みます。ですがその手段・量は全く異なりますし、その後の思考プロセスも含めて学習であるということを知らないのだと思います。
もしもAIと人間の学習が同じならこんなに大量の素材を用意する必要はないはずです。
なお私見ですが、この58億枚という枚数をこしらえるためにLAION-5Bには著作権侵害コンテンツも大量に投入されており、やはり権利面で問題視されていたりします。(←具体例がほしい。なお日本の著作権法は、学習のためにネット上の画像を無断で使用してよいと定めています)
しかしながら、素材調達における著作権侵害を問題視する気持ちが「AIの学習はダメ」という言説にすり替わってしまっているのではないか?という人はよく見かけます。
気持ちはわからなくもないですが、著作権の問題と技術の是非は切り分けて考えるべきだと思います。
しかしながら、素材調達における著作権侵害を問題視する気持ちが「AIの学習はダメ」という言説にすり替わってしまっているのではないか?という人はよく見かけます。
気持ちはわからなくもないですが、著作権の問題と技術の是非は切り分けて考えるべきだと思います。
(加筆:この議論において、aiによる学習は違法で、人間による学習は合法だと結論づけるには単に学習プロセスの違いを指摘するだけでは不十分で、学習プロセスのどの部分が問題となるのかを明確に定義する必要がある。そしてその問題点はaiによる学習には含まれていて、人間による学習には含まれていないものでなければならない。)
★★★
冒頭にも記しましたが筆者はAIの分野についてはど素人であり、おそらくこの文章も大いに間違っているものと思われます。しかしながらひとまずベースの文章をアップすることが重要と考え、拙文ながら公開させていただきました。
追記・修正お待ちしております。
追記・修正お待ちしております。
(一読しましたがご自身でおっしゃるとおり間違いや勘違いが多々あります。人間の学習と機械学習はこう違うから画像生成AIはよくないという主張をするにしてはあまりに稚拙で、「この程度の認識で反対しているのか」と思われてしまう内容と感じました)←行間を読めない添削厨が沸いているようだが(添削にもなっていないが)、結論「AI生成物への誤認」と「それに対する整備」の問題。100均の包丁も、銘入りも「人を殺せることに変わりはない」のだから。