データセット問題
仕様上発生するフィッティングによって諸問題が発生するデータセット
著作権で保護された創作物
- Pixiv社員高坂氏のツイート。
利用されたデータセットは無断転載サイトdanbooruから収集したもの?


- データセットの権利侵害による成果偽装の可能性


右側は漫画家の津島隆太が現行画像生成AIで作成した画像
実在の人物画像

Instagramのインフルエンサーを集めたマーケティング用データセット
- 児童ポルノ等の国内違法コンテンツ
巨大データセット内
個人収集の違法動画/画像
「個人を特定できなければ画像生成されたものでも非実在未成年ではないか」とする論説が登場したが、画像生成AIにそのようなプライバシーに配慮した加工をする知能はなく、個人情報につながるパーツがランダムで描画される可能性があるため、机上の空論であると言わざるを得ない
個人収集の違法動画/画像
「個人を特定できなければ画像生成されたものでも非実在未成年ではないか」とする論説が登場したが、画像生成AIにそのようなプライバシーに配慮した加工をする知能はなく、個人情報につながるパーツがランダムで描画される可能性があるため、机上の空論であると言わざるを得ない
- 医療データ
2022年09月22日記事
画像生成AIユーザーがAI学習用データセットから「自分の医療記録の写真」を発見してしまう
https://gigazine.net/news/20220922-medical-photos-popular-ai-training-data-set/
画像生成AIユーザーがAI学習用データセットから「自分の医療記録の写真」を発見してしまう
https://gigazine.net/news/20220922-medical-photos-popular-ai-training-data-set/
LAION-400Mのサイトコメントが改訂される

LAION-400-Mのサイトコメント。「データセットは実際のアプリケーション向けではありません」
Stable Diffusionに利用されたLAION-5Bも同様の記載があり、研究用途以外に利用してはいけないという趣旨のコメントが書かれている。