検索
連載

無料で誰でも簡単に、テキストから画像を生成できる「Craiyon(旧名:DALL・E mini)」を使ってみよう簡単に試せるAI・機械学習

テキストプロンプト(文章)から画像を生成するAIサービス「craiyon.com」。その概要と使い方、サンプル実行例のギャラリーに加えて、「どういった文章を入力すればよいか?」や「生成した画像は使ってもいいのか?」といった気になる点も紹介する。

PC用表示 関連情報
Share
Tweet
LINE
Hatena
「簡単に試せるAI・機械学習」のインデックス

連載目次

 本連載では、前提知識が不要で誰でも簡単に使えるAIや機械学習のツールなどを紹介している。今回は、画像を説明する任意の文章(テキスト)から画像を生成できる「Craiyon」(クレヨン)というAIツールを紹介する。とても手軽に使えて基本的に無料(詳細後述)なのでお勧めである。ぜひ本稿を参考に試してみてほしい。

 最近(2022年8月現在)、テキストから画像を生成できるAIツール、例えばDALL・E 2(ダリ・ツー)やMidjourney(ミッドジャーニー)などで生成した画像の内容が「すごい」とSNSなどで大変盛り上がっている。実は、こういったAIツールは一般の人向けにも公開されているものの、「誰でも、手軽に」とまでは言えない。DALL・E 2は招待制で筆者はまだ使えないし、MidjourneyはDiscordのサーバーを利用するようで使用のハードルが少し高い。そんな中で、最も手軽に誰でも使えるのがCraiyonなのである。

 本稿ではCraiyonについて、

  • Craiyonとは?
  • 使い方
  • どういった文章を入力すればよいか?
  • 生成した画像は使ってもいいのか?
  • 話題になった文章で生成してみた

という内容で説明している。

Craiyonとは?

 既に説明済みだが、Craiyonはテキストから画像を生成できるAIモデルだ。OpenAIのDALL・Eの成果を、オープンソースのモデルで再現したものとなる。CraiyonのAIモデルを訓練したのはBoris Dayma氏で、サーバーのバックエンドを作成したのはPedro Cuenca氏とのことである。モデルの詳細はDALL・E Mini Model Cardを参照してほしい。

 Craiyonは、かつて「DALL・E mini」という名前でHugging Face上のページから利用できるようになっていたが、OpenAI公式のDALL・EやDALL・E 2とは別物であるので、混乱や誤解を避けるために現在では「Craiyon」に改名されている。

 かつての名前に「mini」とあったように、Craiyonは本家のDALL・Eよりも「27分の1」のモデルサイズらしい(詳しくは前述のModel Cardを参照)。画像サイズ(筆者による生成例では256×256ピクセル)も、本家(サンプルの生成例では1024×1024ピクセル)よりも小さい。今後、より大きなサイズが生成できるようにする計画はあるとのこと。

使い方

 Craiyonは現在、下記のリンク先で利用できる。図1は、その使用例である。

図1 Craiyonサイトの使用例(craiyon.comから引用)
図1 Craiyonサイトの使用例(craiyon.comから引用)

 使い方は一目りょう然で説明不要であると思うが、テキスト入力欄に「文章」、専門用語で「プロンプトPrompt)」/「テキストプロンプト」を入力して、右端のボタンをクリックするだけだ。ログインもなく、今すぐに誰でも使える。たったこれだけの手順で最先端のAIを体験できるのだからすごい時代になったものである。

 ただし英語の文章を入力する必要がある。とはいえ、僕らにはDeepLという神ツールが既にあるので心配不要だ。図2のように好きな日本語文章を考えてDeepLを使って翻訳すればよい。

図2 DeepLでプロンプトの文章を日本語から英語に翻訳する例
図2 DeepLでプロンプトの文章を日本語から英語に翻訳する例

 「メロンを食べながらジャンプするパンダ」という日本語を考えて翻訳してみたところ、「Panda jumping while eating melon」という英語が得られたのでこれを、テキスト入力欄にコピペした実行したのが図1というわけである。9枚の画像が得られるが、筆者的にはその中でも右上の画像(図3)が一番それらしい見た目かなと感じた。

図3 文章「メロンを食べながらジャンプするパンダ」で生成された1枚(craiyon.comから引用)
図3 文章「メロンを食べながらジャンプするパンダ」で生成された1枚(craiyon.comから引用)

どういった文章を入力すればよいか?

 「どういった文章を入力すれば、どういった画像が得られやすいか」という工夫やテクニックを、「プロンプトエンジニアリングPrompt Engineering)」と呼ぶ。機械学習では事前にAIモデルに入力するデータ項目(=特徴量)を工夫することを「特徴量エンジニアリング」と呼び、これによってAIモデルの性能が大きく変わってくる。それと同様に、テキストプロンプトによって、AIにより生成される画像が大きく変わってくるというわけだ。

 Craiyon向けというわけではないが、本家のDALL・E 2用にはプロンプトエンジニアリング(より平易に表現すると「プロンプト設計Prompt Design」)のための、

という資料が公開されているので、ぜひ参考にしてみてほしい。恐らくCraiyonにも応用できるはずだ。

 試しにガイドブックにあった「Abstract acrylic painting of the rabbit mirror ritual, earth tones, heavy impasto technique(ウサギの鏡の儀式の抽象アクリル画、アーストーン、重厚なインパスト技法)」というプロンプトをCraiyonに入力して実行してみると、図4のような画像が得られた(「impasto」とは「厚塗り」のこと)。

図4 文章「ウサギの鏡の儀式の抽象アクリル画、アーストーン、重厚なインパスト技法」で生成された画像(craiyon.comから引用)
図4 文章「ウサギの鏡の儀式の抽象アクリル画、アーストーン、重厚なインパスト技法」で生成された画像(craiyon.comから引用)

 どうだろうか。特に左中央の絵はイメージに近いのではないだろうか。このように「The DALL・E 2 Prompt Book」は、Craiyonでもかなり使えるのではないかと思う。

生成した画像は使ってもいいのか?

Copyright© Digital Advantage Corp. All Rights Reserved.

ページトップに戻る