「2001年」に、スケッチしているボーマンにHAL 9000が「見せてください」と言い、その絵がコールドスリープで眠っている「ハンター博士」だと言い当てるシーンがある。
この会話をするためには、幾つかの技術的ハードルがある。
歩き回るボーマンを見て「仕事ですか?」と聞くために、「何かの作業で歩き回っているのだろう」と「ジェスチャー認識」で「推測」する能力
ボーマンの「スケッチだ」という回答に対して「見せてください」と言うためには、ボーマンが手に持っているのが「その作品だ」という概念
カメラ(赤い目)でボーマンのスケッチを読み込み、画像処理システムでスケッチを観察する能力
紙に書いてあるものが「スケッチ=絵」であると理解する能力
スケッチに書かれているのがコールドスリープ装置の絵だということ、さらに、中にいるのがハンター博士であることを識別する能力
紙、絵、装置、博士という複数の概念が複雑になっていて、とても難しい。
今流行しているAIは、機械学習という技術がほとんどであるが、それは主に「分類」という装置である。「(0)こういう画像がハンター教授のスケッチだよ」と「(1)そうでないもの」とをまぜて大量に与えて(教師データ)覚えさせ、どちらなのかを当てさせるような機能である。
つまり、「仕事をしている」「スケッチをしている」「紙に書いた絵」「ハンター博士」というような概念を理解できているわけではないのである。
ただし、ボーマンが歩いてきたのを検知し、「仕事ですか」「スケッチだ」「見せてください」「ハンター博士ですね」というやりとりをするくらいの応答システムなら私にでも作れる。これは「人口無能」とか呼ばれるシナリオ再生装置にすぎない。
「2001年」の重要なシーンの一つが、ボーマンとフランクがPODの中で話す様子をHAL 9000がカメラで見て読唇術を使うところだ。
読唇は画像(または映像)のみで行われることと、人が声を発する際の唇の形状の種類には限りがあり、この「限りある種類」に分類することが出発点となると、画像の「教師なし学習」という方法で唇の形状ごとに分類できると考えられる。
口が「あ」の形をしていたら、母音が閉じたあと開いた(ま、ば、ぱ)のいずれか、舌が動いて見える(か、た、な、ら、が、だ)のいずれか、など子音も少しだけ予測できるようになる。
しかし「た」「な」「ら」の違いなどを「見分ける」ことは難しい。
そこで、音の並びから推測することになる。こういった並びの確率を当てる技術として「HMM」(Hidden Markov Model)や「CRF」(Conditional Random Field)といった「確率モデル」と呼ばれる手法が使われる。
例えば、口の形が「(ま|ば|ぱ)(た|な|ら)(て|ね|れ)」のように「見える」とき、辞書の中から1番近い音に近似するものを探し出し、「これは『またね』と言ったのではないか?」と推測するのである。この処理方法は、音声認識で使われるものと近い。
読唇技術は音声認識よりも曖昧な情報が多く、読唇術は、まだ研究の進んでいない分野である。人が「聞く」のよりも「読唇」の方が苦手なように、機械も唇の読み取りは苦手なようである。
HAL 9000が行った読唇術は難しい技術である。
Copyright © ITmedia, Inc. All Rights Reserved.