■データセット・スクレイピング関連
生成AIに使用されるデータセットに含まれるもの及び、
収集方法などに関する問題の事例集
※🔒:会員限定記事、🔐:有料記事
収集方法などに関する問題の事例集
※🔒:会員限定記事、🔐:有料記事
2025年
日付 | 出来事 |
---|---|
7/14 | ChatGPTの結果がLLMスパムに汚染され始めた(海外SEO情報ブログ) |
6/30 | GoogleのAI「Gemini」のトレーニング業務などを担うScale AIで未審査のフリーランサーによるあまりにも粗悪な仕事が横行していたことが判明(GIGAZINE) |
1/23 | 米リンクトインを集団訴訟で提訴、個人情報をAI開発に無断提供(ロイター) |
1/11 | OpenAIのクローラーボットが3Dスキャンデータ販売サイトをほぼDDoS攻撃な徹底スクレイピングでダウンさせていた(GIGAZINE) |
2024年
日付 | 出来事 |
---|---|
12/23 | 伊、オープンAIに罰金 チャットGPTがデータ保護規則違反(ロイター) |
9/2 | Stable Diffusionにも使われるデータセット「LAION-5B」に児童性的虐待コンテンツが見つかり開発元がリンクを削除した「Re-LAION-5B」をリリース(GIGAZINE) |
8/8 | XがEUのユーザーデータを使用して同意なくGrokをトレーニングしたとして告訴される(GIGAZINE) |
8/6 | Meta 顔認識技術による個人情報収集問題でテキサス州と単一州では過去最多の約2,100億円で和解(Ledge.ai) |
6/17 | 生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している(GIGAZINE) |
6/11 | 画像生成AIのStable Diffusionなどに使われるデータセット「LAION-5B」に同意のない子どもの写真が含まれており身元まで特定可能(GIGAZINE) |
4/7 | 事件・事故の犠牲者の顔写真、生成AIが無断使用…遺族「使うのやめて」・識者「尊厳にかかわる」(読売新聞) |
3/26 | 水遊び、内科検診…園児の裸画像、ポルノ流用横行、AI用データにも(毎日新聞🔐) |
3/21 | 生成AI、児童ポルノ画像を学習か…専門家「被害者の人権侵害恐れ」(読売新聞) |
3/21 | 生成AIが違法画像学習か、データ収集先に画像投稿サイトやネット掲示板…フィルターすり抜けも(読売新聞) |
3/12 | 画像生成AI・Midjourneyが「Stable Diffusion開発元のBOTによるプロンプトと画像の大量収集」を検知して当該アカウントを永久BAN(GIGAZINE) |
1/16 | 生成AIが潜在的に抱える「モデル崩壊」問題が早くも顕在化し始めた(日経クロストレンド) |
1/13 | 人気の画像生成AIモデルが子どもの虐待画像でトレーニングされていたことが判明(Ledge.ai) |
1/6 | 画像生成AIの訓練に「児童ポルノ」が使用されていたことが発覚(Forbes JAPAN) |
1/5 | 6歳児を含む1万6000人の作家リストが流出。AIの訓練に使用したとしてMidjourneyに非難が殺到(ARTnewsJAPAN) |
2023年
2022年
日付 | 出来事 |
---|---|
12/20 | データ泥棒にご用心! 大人気のアバター作成AIアプリの落とし穴(ARTnewsJAPAN) |
9/22 | 画像生成AIユーザーがAI学習用データセットから「自分の医療記録の写真」を発見してしまう(GIGAZINE) |