テキストプロンプト(文章)から画像を生成するAIサービス「craiyon.com」。その概要と使い方、サンプル実行例のギャラリーに加えて、「どういった文章を入力すればよいか?」や「生成した画像は使ってもいいのか?」といった気になる点も紹介する。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
本連載では、前提知識が不要で誰でも簡単に使えるAIや機械学習のツールなどを紹介している。今回は、画像を説明する任意の文章(テキスト)から画像を生成できる「Craiyon」(クレヨン)というAIツールを紹介する。とても手軽に使えて基本的に無料(※詳細後述)なのでお勧めである。ぜひ本稿を参考に試してみてほしい。
最近(2022年8月現在)、テキストから画像を生成できるAIツール、例えばDALL・E 2(ダリ・ツー)やMidjourney(ミッドジャーニー)などで生成した画像の内容が「すごい」とSNSなどで大変盛り上がっている。実は、こういったAIツールは一般の人向けにも公開されているものの、「誰でも、手軽に」とまでは言えない。DALL・E 2は招待制で筆者はまだ使えないし、MidjourneyはDiscordのサーバーを利用するようで使用のハードルが少し高い。そんな中で、最も手軽に誰でも使えるのがCraiyonなのである。
本稿ではCraiyonについて、
という内容で説明している。
既に説明済みだが、Craiyonはテキストから画像を生成できるAIモデルだ。OpenAIのDALL・Eの成果を、オープンソースのモデルで再現したものとなる。CraiyonのAIモデルを訓練したのはBoris Dayma氏で、サーバーのバックエンドを作成したのはPedro Cuenca氏とのことである。モデルの詳細はDALL・E Mini Model Cardを参照してほしい。
Craiyonは、かつて「DALL・E mini」という名前でHugging Face上のページから利用できるようになっていたが、OpenAI公式のDALL・EやDALL・E 2とは別物であるので、混乱や誤解を避けるために現在では「Craiyon」に改名されている。
かつての名前に「mini」とあったように、Craiyonは本家のDALL・Eよりも「27分の1」のモデルサイズらしい(※詳しくは前述のModel Cardを参照)。画像サイズ(筆者による生成例では256×256ピクセル)も、本家(サンプルの生成例では1024×1024ピクセル)よりも小さい。今後、より大きなサイズが生成できるようにする計画はあるとのこと。
Craiyonは現在、下記のリンク先で利用できる。図1は、その使用例である。
使い方は一目りょう然で説明不要であると思うが、テキスト入力欄に「文章」、専門用語で「プロンプト(Prompt)」/「テキストプロンプト」を入力して、右端のボタンをクリックするだけだ。ログインもなく、今すぐに誰でも使える。たったこれだけの手順で最先端のAIを体験できるのだからすごい時代になったものである。
ただし英語の文章を入力する必要がある。とはいえ、僕らにはDeepLという神ツールが既にあるので心配不要だ。図2のように好きな日本語文章を考えてDeepLを使って翻訳すればよい。
「メロンを食べながらジャンプするパンダ」という日本語を考えて翻訳してみたところ、「Panda jumping while eating melon」という英語が得られたのでこれを、テキスト入力欄にコピペした実行したのが図1というわけである。9枚の画像が得られるが、筆者的にはその中でも右上の画像(図3)が一番それらしい見た目かなと感じた。
「どういった文章を入力すれば、どういった画像が得られやすいか」という工夫やテクニックを、「プロンプトエンジニアリング(Prompt Engineering)」と呼ぶ。機械学習では事前にAIモデルに入力するデータ項目(=特徴量)を工夫することを「特徴量エンジニアリング」と呼び、これによってAIモデルの性能が大きく変わってくる。それと同様に、テキストプロンプトによって、AIにより生成される画像が大きく変わってくるというわけだ。
Craiyon向けというわけではないが、本家のDALL・E 2用にはプロンプトエンジニアリング(より平易に表現すると「プロンプト設計:Prompt Design」)のための、
という資料が公開されているので、ぜひ参考にしてみてほしい。恐らくCraiyonにも応用できるはずだ。
試しにガイドブックにあった「Abstract acrylic painting of the rabbit mirror ritual, earth tones, heavy impasto technique(ウサギの鏡の儀式の抽象アクリル画、アーストーン、重厚なインパスト技法)」というプロンプトをCraiyonに入力して実行してみると、図4のような画像が得られた(「impasto」とは「厚塗り」のこと)。
どうだろうか。特に左中央の絵はイメージに近いのではないだろうか。このように「The DALL・E 2 Prompt Book」は、Craiyonでもかなり使えるのではないかと思う。
執筆時点(2022年8月2日時点)では、Craiyonで生成した画像は使ってもよい。が、完全に無制限ではない。例えば、学術/研究/教育目的の場合や、友達に向けてSNSで公開したり、Tシャツに印刷したりなどの個人/娯楽目的の場合には、画像を無料で利用できる。画像のクレジットは「craiyon.com」にしてほしいとのこと。本稿のコンセプトである「最先端AIを試して実感してみたい」という目的であれば、問題なく無料で誰でも利用できるだろう。厳密には「公式サイトのFAQ」を確認してほしい。
また、商用利用の場合は、無料で使う方法とライセンスを得る方法がある。詳しくは公式サイトの利用規約を確認してほしい。
なお、このように無料で使えるサービスを運用するために、サイトには広告が貼られているそうである。
ここまでに使い方や重要な疑問点の説明は終わった。最後に、最近話題になったプロンプトをCraiyonでも何個か試してみたので、そのギャラリーを示しておく。
プロンプトは「That person, wearing a blue robe, shall stand in a golden field」で(参考:「MidjourneyというAIに「そのもの蒼き衣を纏て金色の野に降り立つべし」描かせてみたらイラストレーターの将来が心配になるレベルのものができた - Togetter」)、図5の画像が生成された。筆者は右上が良いと感じた。
プロンプトは「A man is sitting in his office chair. He has no face and his head is a cube. He is wearing a gray shirt and black pants. There is no one else in the office.」で(参考:「文章から画像を生成するAI「DALL・E2」を使ってみた|柞刈湯葉 Yuba Isukari|note」)、図6の画像が生成された。どれもなかなかよいと思うが、強いて挙げるなら左下か上中央が筆者のお気に入りである。
プロンプトは「Overhead view of the city in the Middle Ages」で(参考:「AIで『中世の都市の俯瞰図』を錬成しようとしているが何度やっても炎を吹き上げる…→鎮火するまでの流れが呪術師みたいで面白い - Togetter」)、図7の画像が生成された。筆者は左中央が良いと感じた。
プロンプトは「Sacred and wonderful oil painting of a messed up fat cat celebrating the arrival of a new era」で(参考:「AIに描いてもらった『新しい時代の到来を祝福するメチャクチャ太った猫の神聖で素晴らしい油絵』語彙と知識で美しい絵画が誕生 - Togetter」)、図8の画像が生成された。まずまずではあるものの「神聖で素晴らしい」の表現が達成できていない感じがした。
プロンプトは「Astronaut on a white horse」で(参考:「白馬に乗った宇宙飛行士?希望のワードを入力するだけでその通りの画像を生成する脅威のAIが誕生 : カラパイア」)、図9の画像が生成された。右中央は「なぜ逆向きに乗っているのか」が気になった。左中央は横乗りであるし、これはかっこ悪いので決して王子様ではないが、宇宙飛行士なのでセーフなのかな。
いかがだっただろうか。生成までに数分かかるが、非常に短い時間で手軽に生成できる。品質もそれなりである。ぜひ本稿を参考に試してみて、生成した画像を他の人にも見せてみてほしい。
Copyright© Digital Advantage Corp. All Rights Reserved.