検証中の仮説であり、実際の挙動と異なる場合がございます
思ったような画像を出すためのプロンプト(呪文)生成はじめの一歩。
※以下はデフォルトの画像生成AI(Stable Diffusion)を前提にした説明です。ほかのAI(ERNIEなど)では挙動が異なる可能性があります。
※以下はデフォルトの画像生成AI(Stable Diffusion)を前提にした説明です。ほかのAI(ERNIEなど)では挙動が異なる可能性があります。
プロンプトの基本
画像生成で指定するテキストを「プロンプト」(俗称「呪文」)といいます。
Memeplexが使っているAIは自然言語(ふつうの言葉)のプロンプトから画像が生成できます。
従わないとエラーになる特殊な文法やルールなどはありません。
従わないとエラーになる特殊な文法やルールなどはありません。
なのでごく単純に、
ラーメン 夏 森の中 馬 パソコン 雪
のように単語だけ並べても画像は生成されます。
ただしこれだと単語の羅列なので、思ったような画像を出すのは少し難しいです。
そこで、以下のようなプロンプトづくりのコツを覚えて試してみると良いでしょう。
そこで、以下のようなプロンプトづくりのコツを覚えて試してみると良いでしょう。
コツその1:文章にする
実はAIはあるていど文章を理解します。
長靴を履いた猫がロンドンの上空を飛ぶ
とか
脳みそを頭に乗せたロケットシップ
のように文章で書くと、それに応じた画像を出してくれます。
「いつ・どこで・どんな・誰が・何をする」くらいなら各要素を盛り込んでけっこう精度良く出せるようです。
「いつ・どこで・どんな・誰が・何をする」くらいなら各要素を盛り込んでけっこう精度良く出せるようです。
ただし、
脳みそがロケットの右隅の端っこの方にちょこっとちらばってる
みたいな複雑で抽象的な文章だと無視される可能性は高いようです。
まずは出したい画像の要素を具体的で単純な文章にしてリクエストしてみると良いでしょう。
(本気で追い込もうとするとこんどは逆に単語の羅列が効果的になるようなんですが、それは上級者向けのまた別の話ということで……)
※ちなみに生成された画像のページには英単語のタグがついていますが、これは頻度の多い単語を機械的に並べているだけらしいので、AI内部の画像生成処理とは関係ないと思われます(たぶん)。
コツその2:英語に訳しやすい単語を使う
Memeplexのプロンプトは、リクエストの際に自動的に外部の翻訳エンジンを経由して、いちど英語に翻訳されてからAIに渡されます。
たとえば、
長靴を履いた猫がロンドンの上空を飛ぶ
は
cat with long boots flying in the sky over London
のように翻訳されます(たぶん)。
また、AIの学習に使われたデータセットには偏りがあり、英語圏・欧米圏の画像や言葉から多くを学習しているようです。
つまり、あまりに日本語圏に偏った言葉だと適切に翻訳されないか、またはAIがよく知らない可能性があるということです。
なので、できるだけ英語に訳しやすい単語を使ったほうが意図した結果が出やすいです。
モスでライン見てるJK
よりも
ハンバーガーショップでスマホを見ている日本人の女子高生
のほうが意図した結果に近い画像が出せるんじゃないかと思います(それでも元データセットの学習範囲による限界はあります)。
ここまでのまとめ
- 基本はどんな言葉を入れてもOK
- 簡単な文章であれば理解して絵を出してくれる
- 英語に翻訳しやすい言葉を選ぶとベター