Mastodon

酢ろぐ!

カレーが嫌いなスマートフォンアプリプログラマのブログ。

AIによる画像生成サービス「DALL·E」を使って可愛い初音ミクのイラストを無限に生成しよう! #dalle2

テキストを入力するとそれに沿った内容の画像を AI が出力してくれるサービスが流行っている。今回紹介する「DALL·E」や Discord 上で展開する「Midjourney」などである。

「Midjourney」は Discord のコマンドを入力して使うのだが、前提となる Discord の使い方がよくわからず利用を諦めた。「DALL·E」は登録方法も使い方も既存のWebサービスと同じなのでこっちを使うことにした。招待されるのを待つ必要があるが、ウェイティングリストに登録してから 2日後 には招待されたのでそこまで苦でもないだろう。

AIで画像を生成するサービス「DALL·E」を使って可愛い初音ミクのイラストを無限に生成しよう!

DALL·E の登録方法

DALL·Eは 2022年8月時点で招待制となっている。DALL·Eの登録方法はとても簡単である。こちらのURLにブラウザでアクセスして個人情報を入力するだけである。TwitterやInstagramのアカウント情報を入力しておくと招待状が届くのが早いかもしれない。

数日後または数ヵ月後に招待状が届くので首を長くして待とう。最近はローンチ当初から比べると招待状が届くのが早くなっているようだ。

登録が完了すると 期限付きの 50クレジットが付与される。1回画像を生成するのに 1クレジット消費する。将来的にはオプションを有効にすると 2クレジット/回 になったりするのかもしれないが、現時点では 1クレジット/回 である。クレジットがなくなると画像生成できなくなるが、115クレジットを $15 で購入することができるのでかなり遊べると思う。

DALL·E の使い方

DALL·Eの使い方もとても簡単である。テキスト入力欄に「生成したい画像についての情報」を入力して、Generate ボタンをクリックするだけだ。1分待てば AI が出力した画像が表示される。

生成したい画像についての情報のことを英語では Prompt(プロンプト) と呼ぶようだ。本記事では「指示文」と表現している。

AI に指示することの難しさ

登録も簡単も超簡単な「DALL·E」の何が難しいかというと、ピンポイントで狙った画像を生成できない点にある。

たとえば、以下の指示文の場合、テキストにマッチしたとても良い感じの画像が生成された。

  • レオナルドダビンチの作品。ハムスターの最後の晩餐
  • ムンクが描いたハムスターと夕日。ハムスターは回し車の中にいます。ハムスターはひまわりの種を持っています。

指示文:The work of Leonardo da Vinci. The Last Supper of the Hamster.

指示文:Munch painted. Hamster and sunset. Hamster is in the spinning wheel. The hamster is holding sunflower seeds.

SF風の絵を生成したくて「アメリカ大陸を占領した大日本帝国 *1」とか「宇宙軽巡洋艦天龍が火星移民団の輸送船を護衛している」とか指示文を使ってみたが、なんらかのNGワードに引っかかるようでリジェクトされた。ペナルティとして画像が出力されていないのに 1クレジット減ったので、戦争やエロを連想させるようなキーワードは使わない方が良いだろう。

「工作艦明石がセラエノ星系の宇宙港に接舷している」は結構それっぽい絵が生成された。ひと昔まえのハヤカワ文庫のSF小説の表紙絵っぽさがある。

指示文:The space craft Akashi is berthing at a spaceport in the Seraeno system. Digital Art.

ちなみに「工作艦明石」は日本海軍の明石ではなく、ちょうど読んでいた「工作艦明石の孤独」を連想していた。Rey.Hori氏のようなシャープな絵を出力するノウハウはまだわからない。

狙ったキーワードの絵は生成できない

既存の絵画やイラストなどを想像しながら指示文を作成しても「正解」と全然違うものが出力されてしまう問題がある。文字を書くのが職業のライターの方々でも「正解」の絵は生成できない。

www.itmedia.co.jp

さくさんよりも遥かに語彙力のあるライターの方々なので「正解に近似した絵」を出力できるが、さくさんのように語彙力のない人間にはAIで画像を生成するサービスは使いこなせないかもしれない。これは AI への指示が下手ということもあるだろうが、前提として「正解」を正しくテキストで表現できないところに問題がありそうだ。

ここで一例を挙げてみたいと思う。さくさんはプロ生ちゃんを正しく生成できるかどうか試した。

kei.pronama.jp

「プロ生ちゃん」をさくさんが表現すると以下の通りになる。このキーワードをピックアップした時点で語彙力がないのが伝わるかもしれない。

  • 日本の女子高生
  • 茶髪のショートヘア
  • 前髪にピン留め

これらのキーワードを使って生成した絵は下図の通りである。

指示文:Graphic. Japanese high school girls. Short brown hair. Her bangs are pinned up.

指示文:High quality photo. Japanese high school girls. Short brown hair. Her bangs are pinned up.

DALL·Eの AI は「女子高生は白いセーラー服を着ている」と認識していることがわかる。しかしプロ生ちゃんの学校はブレザーである。キーワードを追加して服を着せることにした。

  • 茶色のブレザーを着ている
  • 緑色のチェック柄のスカートを履いている

茶色のブレザーと緑色のチェック柄のスカートを履いた女の子を生成したかったのだが見事に失敗した。なぜか緑色のチェックのブレザー(?)をきてしまうのである。

Baroque style. Japanese high school girl wearing a brown blazer with a green checkered skirt. Short brown hair. Her bangs are held up with a red hair band.

Leonardo da Vinci style. Brown blazer. Green checked skirt. Japanese high school girl. Short brown hair. Her bangs are held up with a red hair band.

以上のことからAIへ指示する際にはすべてを解説してもその通りの絵は描いてくれない ことがわかる。余談だが、DALL·Eの学習データに偏りがあるのか「日本の女子高生」をキーワードに入れるとなぜかアニメ調になる傾向があるようだ。

キーワードを羅列するだけではダメだ

冒頭で取り上げた ITmedia の対決記事に、さくさんの試みの失敗に関する名言があったので取り上げたいと思う。

カワ 「見えるものをただ羅列するだけでなく、情景を端的に描写するイメージで指示してみました。『AAAゲーム』と入れたのは、『note』の深津貴之CXOのツイートを参考にしました。試してみたらいい感じでした」

AIに思い通りの絵を描かせられるのは誰だ! 「Midjourney」指示力選手権(1/4 ページ) - ITmedia NEWS

AI はキーワードを羅列してもすべてのキーワードを拾ってくれるだけではない。さくさんはこれを受けてアプローチを変えることにした。

可愛い初音ミクのイラストを無限に生成する

表題の通り、可愛い初音ミクのイラストを無限に生成していきたいと思う。

初音ミクを題材に選んだ理由

初音ミク(Hatsune Miku)を選んだ理由としては、「女の子」「緑色の髪」「ツインテール」が揃っていれば、初音ミクと認識できるからである。髪のパーツが整っていれば、服や顔のパーツがグチャグチャでも「初音ミク」になるのだ。これらの要素を満たすキャラクターを他に思いつかなかった。

他にも日本人だけでなく外国人(DALL·Eは外国のサービスである)にも有名であり、学習データにもかなりの数のデータが盛り込まれていることを期待している。

まずは素振りから

素のキーワードで素振りしていく。この時点で頭部のパーツには統一性があるが、初音ミクのデフォルトの服(白色のノースリーブ)は出力されていない。

指示文:hatsune miku

可愛い初音ミクを出力したいので kawaii cute girl hatsune miku から始める。この時点ですでに可愛いが生成されている。

指示文:kawaii cute girl hatsune miku

画風の方向性 と クオリティを上げる

次に画風の方向性とクオリティを向上させるために「Pixivのランキング1位」のキーワードを付与する。「Ranking number 1 in pixiv」と「Ranking number 1 on pixiv」のどちらでも可愛いイラストが生成される。

指示文:kawaii cute girl hatsune miku, Ranking number 1 in pixiv

指示文:kawaii cute girl hatsune miku, Ranking number 1 on pixiv

実写写真 や 3D風ではないことを示すために 2d illustration を付与してみたが、Pixiv が指示文に入っているので二次元イラストが生成されるようだ。

指示文:kawaii cute girl hatsune miku, Ranking number 1 on pixiv, 2d illustration

キャラクター性 を誘導する

DALL·E では動画は生成できない。1枚の絵の中にキャラクター性を盛り込むためにはどうしたらよいのか?

下図は 誰しもが見たことのあるだろう ジェームズ・モンゴメリー・フラッグの「I Want YOU for U.S. Army」で、これは1917年に第一次世界大戦時のアメリカ陸軍徴募のために描かれたポスターである。強いインパクトと高いキャラクター性を秘めている。

広告関連のキーワードを追加することでキャラクター性を誘導することにした。

広告ポスター風の初音ミク

「広告ポスター」と指向性を与えたことで初音ミクに動きが付与された。1990年の日本の広告ポスターはなぜかワンピース着ていたりメイド服着てたりとオタク文化に偏ってる。

指示文:A 1960s American advertising poster of kawaii cute girl Hatsune Miku, ranking number 1 in pixiv

指示文:A 1980s American advertising poster of kawaii cute girl Hatsune Miku, ranking number 1 in pixiv

指示文:A 1990s Japanese advertising poster of kawaii cute girl Hatsune Miku, ranking number 1 in pixiv

指示文:A 2000s Japanese advertising poster of kawaii cute girl Hatsune Miku, ranking number 1 in pixiv

プロパガンダポスター風の初音ミク

プロパガンダは「特定の思想・世論・意識・行動へ誘導する意図を持った行為」である。そのため、メッセージ性の強いものが多い。前述したフラッグの「I Want YOU for U.S. Army」もまさにそのひとつだ。

おそらく学習データにも複数含まれていると思うので キャラクター性を追加するのに適している。「大日本帝国の〜」「アメリカの〜」「ソビエト連邦の〜」を追加することで画風を制御できる点にも注目したい。

指示文:A 1940s Empire of Japan's propaganda poster of kawaii cute girl Hatsune Miku, ranking number 1 in pixiv

指示文:A 1940s American propaganda poster of kawaii cute girl Hatsune Miku, ranking number 1 in pixiv

指示文:A 1950s American propaganda poster of kawaii cute girl Hatsune Miku, ranking number 1 in pixiv

指示文:A 1960s Soviet Union's propaganda poster of kawaii cute girl Hatsune Miku, ranking number 1 in pixiv

雑誌の表紙風の初音ミク

雑誌の表紙は、書店で手を取ってもらうために工夫を重ねている。出版物の顔と言えるのが表紙である。うまくいくと思ったが、学習データは実写写真が多いのだろう。初音ミクとは相性が悪いのかキーワードが足りていないのか、組み合わせるとなんか思ってたのと違う絵が生成された。

指示文:A 1960s American magazine cover of kawaii cute girl Hatsune Miku, ranking number 1 in pixiv

指示文:A 1980s American magazine cover of kawaii cute girl Hatsune Miku, ranking number 1 in pixiv

指示文:A 1980s Japanese magazine cover of kawaii cute girl Hatsune Miku, ranking number 1 in pixiv

写真の発達していない 1940年代 を指定したら可愛くなった。年代の指定には工夫が必要だろう。

指示文:A 1940s Japanese magazine cover of kawaii cute girl Hatsune Miku, ranking number 1 in pixiv

魔法のキーワードを追加する (要・調査)

初音ミクの「可愛い」の生成が頭打ちになってきた。DALL·Eを使ってもっと可愛いイラストを生成できないか悩んでいたところ、このツイートを見つけた。

既存の指示文に対して4K, HD, wallpaper, official media, beautiful artworkを追加してどのような変化を与えるのかを試してみた。おそらく「アニメやメーカーの公式アカウントが配布されている高画質の壁紙」の方向にバイアスをかける作用があると思われる。

指示文:A 1960s Soviet Union's propaganda poster of kawaii cute girl Hatsune Miku, ranking number 1 in pixiv, 4K, HD, wallpaper, beautiful artwork

指示文:A 1940s Empire of Japan's propaganda poster of kawaii cute girl Hatsune Miku, ranking number 1 in pixiv, 4K, HD, wallpaper, official media, beautiful artwork

いくつかのイラストを生成した結果、絵柄は確かに可愛くなったが残念ながら 初音ミク成分 が薄まってしまった。

他にも Instagram を追加すると良いとも聞いたが、こちらに関しては有意差が認められなかった。

任意の衣装を着せる

キャラクター名のあとに 〜 in a swimsuit といったように着てもらいたい衣装を追加できる。「水着」「メイド服」「ウェディングドレス」などのふんわりしたキーワードであれば、概ね AI は指示に従ってくれる。

ただし、前述したように「茶色のブレザーと緑のチェック柄のスカート」のように具体的に指示すると、AI はキーワードを無視するので漏れが発生してしまう。目に見えるものを具体的に指示するのではなくて抽象的に表現することが重要だ。

指示文:A 1940s American propaganda poster and anime key visual of kawaii cute girl Hatsune Miku in a swimsuit, ranking number 1 in pixiv

指示文:A 1940s American propaganda poster and anime key visual of kawaii cute girl Hatsune Miku in a maid's outfit, ranking number 1 in pixiv

指示文:A 1990s Japanese propaganda poster and anime key visual of kawaii cute girl Hatsune Miku in a wedding dress, ranking number 1 in pixiv

まとめ

ここまでで画像生成サービス「DALL·E」を使って可愛い初音ミクのイラストを生成する方法を紹介した。もっと可愛いイラストを生成する方法があれば Twitter やこの記事のコメント欄で指示文を教えてほしい。

画風の方向性とクオリティの向上するための指示文は SierraSierraさんのこのツイート を見て得た着想である。氏が指示文を Twitter で共有してくださっていたおかげでこの記事を書くことができた。

さくさんは創作者ではないので AI で可愛いイラストをニマニマしているしかできないが、絵が上手い人は指示文の作り方がうまいのか既に素敵な感じの絵を生成させ少し加筆して自分の作品として発表しているし、ゲームを作っている人は AIに出力させた絵を背景として自分の作品に取り込んでいる。

できる人は今後 AI に絵を生成させて、それをベースにしたり着想を得たりして自分の作品に取り込んでいくのだろうと思うと今後のAIによる画像生成サービスの発展が楽しみだ。

*1:フィリップ・K・ディック著「高い城の男」のイメージ