連載
» 2021年07月19日 05時00分 公開

「新造人間キャシャーン」を2021年のテクノロジーで解説しようキャシャーンがやらねば誰がやる(3/4 ページ)

[米持幸寿,@IT]

フレンダーの耳

キャシャーンの話を聞くフレンダー(【新造人間キャシャーン】第2話「月光に勝利をかけろ」」から引用)

 シリーズを通してキャシャーンの闘いを助け、ピンチを救う「最も頼りになる存在」であるフレンダー。フレンダーは、犬と同様に耳がとても良い。フレンダーの耳の能力について考えてみよう。

 現代の機械にとっての耳は「マイクロフォン(microphone)」ある。その歴史は長く、145年前の1876年にエミール・ベルリナーが電送のために発明したそうである(Wikipediaより)。

 マイクロフォンには非常に多くの種類が存在する。最も普及しているのは「ムービングコイル」または「リボン型」という発電するタイプのもの。いずれも「ダイナミックマイクロフォン」と分類される。製造コストが安価な上、周辺装置も安価で済む。次に一般的なのが「コンデンサー型」だ。ダイナミックマイクロフォンより少し音質が良いが「給電」が必要なため、一般的ではない。

 ロボットの耳、すなわちマイクロフォンは、私たち人間や動物の耳と同じく、入ってきた音からさまざまなことを解釈することが重要である。フレンダーは、キャシャーンやルナが話す言葉を理解しているようだし、キャシャーンの指笛に共鳴するようにできており、(距離に限界はあるだろうが)どこからでも駆け付ける。遠くから近寄るアンドロ軍団の足音にも敏感に反応する。

 これらの多くは「音声認識」「音認識」といった技術である。

 今日、音声認識や音認識を行う際に使われる重要な技術に、「ローカライズ(Localization)」と「セパレーション(Separation)」がある。ローカライズとは「方向付け」であり、「音がどちらから来たか」を知ること。セパレーションとは「ある方向から来る音だけを、他の方向からの音から分離すること」である。

 今日、一般の人の手元に普及しているデバイスの幾つかに、これらの技術は搭載されている。その最たるものは「スマートスピーカー」だ。スマートスピーカーに話しかけると、その声が聞こえた方向のLEDを点滅させ「聞いてますよ」と意思表示(するかのように動作)する。

 多くの機器には「ビームフォーミング」という技術が使われており、3個以上のマイクロフォンを使って音の到着時間の「ズレ」を活用してローカライズとセパレーションを同時に行うのだ。そのような一組のマイクロフォンを「マイクロフォンアレイ」という。ローカライズによって方向を決め、その方向の音だけを強調して聞き取ろうとする、という流れである。この技術は第二次世界大戦時には既に英国の海岸のレーダーなどで実用化されていたらしい。

4マイクのマイクロフォンアレイ(筆者所有)

 スマートスピーカーには、ムービングコイルでもリボンでもコンデンサーでもない「MEMSマイクロフォン」が使われている。MEMSマイクロフォンの内部構造はコンデンサーマイクロフォンと同様のものだが、製造工程が違う。

 MEMS(Micro Electro Mechanical Systems)とは、LSIなどを製造するのと同じような技術を使って、シリコンウェハーなどの上に微細な構造を作る技術の総称である。このため、非常に小さなマイクロフォン構造を作ることができる。スマートスピーカーやスマートフォンに入っているマイクロフォンの多くがMEMSマイクロフォンであり、一辺が3ミリ程度の長方形だ。

 MEMSマイクロフォンは、ビームフォーミングを行うのに適しているといわれている。理由の一つは「小さいので集積しやすい」ということ。それより重要なのが「品質が均一」ということだ。MEMSマイクロフォンはシリコンウェハーの上に作る場合、同一のウェハーの上に作るとき、最も特性が似通るという。そのため、同じウェハー上から作られたMEMSマイクロフォンだけを組み合わせてビームフォーミングを行うと、高い性能が期待できる。ビームフォーミングを行うには「性能の良いマイクロフォン」より、「均一なマイクロフォンの組み合わせ」が重要なのだという。

 フレンダーの耳に話を戻そう。「何の音なのか」を聞き分ける技術は「音認識」という。人間の声の「何を話しているか」に限定するなら「音声認識」だ。音認識は「せせらぎの音」「鳥(種類)の鳴き声」「楽器の種類」などの聞き分けを意味する。以前MIT(マサチューセッツ工科大学)を訪問したとき「パンダが今、何をしているのか」をパンダの首に下げたマイクロフォンで収集している研究を見学したこともある。

 音認識も音声認識も「認識(Recognition、またはClassification)」技術であり、今日流行しているAI技術の「機械学習」「深層学習」の分野で、最も注目されている、あるいはお役立ち度が高い技術である。

 AIにおける認識技術とは、多くの場合「用意された候補の中から、どれだと思われるか」の確率を計算する技術である。鳥の鳴き声を聞き分けるAIであれば、聞き分けられる鳥の種類はあらかじめ決まっている。音声認識の場合は、「音素(子音・母音)」「文字」「単語」「フレーズ」などが対象物であり、こちらもあらかじめ候補が決められている。

 音声認識に使われる入力データ(機械学習の世界では「特徴量」という)は当然「音」であるが、学習機にかける前に幾つかの処理が必要だ。雑音や反響成分の除去などは音そのものをきれいにする事前処理といえる。デジタル処理における音のデータはサンプリング値であり、それをそのまま特徴量とすることもできるが、周波数特性に変換してから行う方法もある。「高速フーリエ変換(FFT)」はよく使われている技術だ。周波数特性の時系列データを入力して音素や語を推定した方が効率良く認識できるとされている。

 認識技術に使うべきマイクロフォンに重要なのは「認識のしやすさ」である。認識に必要な音がきちんとシステムに届くことが重要であり、そのために音がゆがんでも構わない。

 また「音がシステムにとってどのように聞こえているか」も重要な要素である。搭載されるマイクロフォン、アンプ、AD(アナログ−デジタル)変換の組み合わせで、コンピュータシステムに届くデジタル信号は変化する。この信号(数値)を使って学習し、候補から選択するのである。このため「学習したときと判定するときのシステムの特性が同じ」であることが求められる。このような音の特性を示すデータを「音響モデル」という。

 音声認識を提供するベンダーは自社が提供するデバイスで学習を進めるため、ベンダーのデバイスで最も性能が良くなる。この点で「フレンダーはキャシャーンの指笛に同調する」というのは納得のいくことといえる。フレンダーの耳は、キャシャーンの指笛の音響モデルを優先的に学習している

Point!

フレンダーの耳は高度な認識技術でできており、キャシャーンの指笛に最適化されている

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。