前に話題になった例では、顔写真の画像をアップロードすると、その人の見た目の年齢を返すというWebサービスがあったよ。他には、画像の内容を読み取って「若い女性がほほえんでいる」みたいな文章を返すサービスもある。こういう「画像の内容を文章で返すプログラム」は画像キャプションと呼ばれているんだけど、ちょっと試してみようか? 何か写真をこのサイトにアップロードしてみてごらん。結果として内容説明の文章(キャプション)が表示されるから。
OK。じゃあ、いつも観てるテレビを撮影した一番好きな画像をアップロードしてみよっと。(😁ポンッ)
―― 画面上のキャプション表示:「裸で激しく抱き合う2人[アダルト判定: 80%]」
んっ……!!? コラー! いつも何を見てるんじゃ〜。お仕置きだっぺ!
<サンバイザー暗黒モード*2、始動>
マナブのサンバイザーには、安全対策として真っ黒にして何も見えないようにすることで、マナブの行動をやんわりと制限する機能が搭載されている。万が一、マナブが悪さをすると、藍はタブレットを操作して、サンバイザー暗黒モードのお仕置きを与えるのだ。
😱うわー、何も見えへん! なんでなんや、いつも藍と観てるお相撲さんの写真やのに〜〜。
??! (紛らわしい画像を入れるな!)勘違いしたの。ごめん、ごめん。
<サンバイザー暗黒モード、解除>
一体なんなの。ひどない、これ!
ふーー(汗)。気を取り直して説明していくよ。確かに2人が裸で相撲をとっている写真だから、表示された文章は大体合っているよね。だけど今回使ったディープラーニングのプログラムは相撲取りの学習をしたことがなかったから、こういう結果になったんだと思う。相撲取りをたくさん学習させればもっと正確な文章を返してくれるようになると思うよ。
(なんか、ごまかされてるよーな)
これはあくまで一例で、他にもいろいろできるけどね。ここ最近、ディープラーニングを使うことで結果の精度(accuracy)が大きく向上したものには、次のようなことがあるよ。ただしこれらは代表的なものだけだし、実際には組み合わせて使われることも多いから、こんなふうにきれいに分類できるわけでもないけどね。
チャットボットって昔からあるような気がするけど?
確かに、以前から「人工無能」と呼ばれる、決まった言葉に対して決まった言葉を返すようなチャットボットはあったわね。でもディープラーニングが活用され始めて、本当に人と会話しているような、より自然な会話を実現できるようになってきているの。
ディープラーニングで学習させれば、こういうことが何でもできるAIができるんだね!
それは違うよ。ディープラーニングで学習させて、「学習済みモデル(Learned model、学習モデル)」というのを作って、それを使って各機能を実現するんだけど、このときできる学習モデルは、あくまで「特定の処理領域に特化したモデル」なの。つまり、目的別に学習させて作り込む必要があるのよ。ドラえもんみたいに汎用的に何でもできるわけではないこと(AGIではないこと)に注意してね。
それなら、さっきのお相撲さんの写真はそれ専用で学習しないといけないということ?
基本的に、ある特定の領域向けに作った学習済みモデルは、他の目的には転用できないの。でも実は、ある特定領域で作った学習済みモデルに追加学習させることでカスタマイズし、別の領域に適応させる技術も存在するのよ。これは転移学習(Transfer Learning)と呼ばれていて、さっきのWebサービスには転移学習によって既存の学習済みモデルをカスタマイズするサービスも提供されているから、相撲取りを認識できるようにするのはそれほど難しくないと思うわ。しかも本来、画像認識の目的で学習させるには数十万枚単位で膨大な数の画像が必要になったりするけど、転移学習であれば数十枚で学習が完了する場合も多いから、使えるなら使わない手はないわね。
それなら今の自分でも、ディープラーニングで独自の学習済みモデルを試しに作れそうやね。あとでやってみようっと。
Copyright© Digital Advantage Corp. All Rights Reserved.