MITの研究チーム、画像内のオブジェクトを音声によって識別する機械学習システムを開発：膨大な文字起こしデータが不要

マサチューセッツ工科大学（MIT）の研究者チームは、画像内のオブジェクトを画像の音声説明に基づいて識別する機械学習システムを開発した。「Siri」などとは異なり、あらかじめ何千時間分もの音声録音の文字起こしを必要とせず、話者の少ない言語にも拡張しやすい。

[＠IT] PC用表示関連情報

LINE

Hatena

　マサチューセッツ工科大学（MIT）は2018年9月18日（米国時間）、同大学のコンピュータ科学・人工知能研究所（CSAIL）の研究者チームが、機械学習によって画像内のオブジェクトを、画像の音声説明に基づいて識別するシステムを開発したと発表した。

　このシステムは、画像と音声説明を与えられると、画像内の対象領域をハイライト表示できる。

　現在の一般的な音声認識技術とは異なり、手作業による音声の文字起こしは不要だ。さらにトレーニング対象のサンプルに関する注釈も必要ない。なぜなら録音された音声クリップと画像から言葉を直接学習し、両者を相互に関連付けるからだ。「マッチマップニューラルネットワーク」と呼ばれる技術を用いた。

　試作したシステムは現在、数百の単語とオブジェクトタイプを認識するにすぎない。だが研究者は、いずれはこの音声オブジェクト認識技術が、膨大な時間の手作業を不要にし、音声認識と画像認識に新たな扉を開くと期待している。

画像内の物体を言葉で表現するとその物体の占める領域を選択するイメージ図（出典：MIT）

Siriとは何が違うのか

　Appleの「Siri」のような音声認識システムでは、何千時間分もの音声録音の文字起こしが必要になる。システムはそれらのデータを使って、音声信号と特定の単語を関連付ける。だが、こうしたアプローチは作業負担が大きく、新しい言葉（外国語）に対応させようと、システムをトレーニングし直さなければならない。これは厄介な作業だ。

　「われわれは当初、人間が利用できる追加の信号や情報を利用して、より自然な音声認識を実現しようと考えた。だが、機械学習アルゴリズムは通常、そのような情報にはアクセスできない。そこでわれわれは、子どもと一緒に歩いているとき、見えているものが何かを教えて聞かせるようなトレーニングモデルを考案した」と研究者は説明する。

　研究チームは最近、コンピュータビジョンのカンファレンス「European Conference on Computer Vision」で、このモデルに関する論文のプレゼンテーションを行った。研究チームは赤い屋根の白い灯台が背景にある、金髪で瞳が青く、青い服を着た少女の画像にモデルを適用した結果を報告した。

　それによると、モデルは画像内のピクセルと、「少女」「金髪」「青い瞳」「青い服」「白い灯台」「赤い屋根」といった言葉を関連付けることを学習した。音声で説明すると、モデルは画像内の各オブジェクトを、説明に合わせてハイライト表示できた。

「自動通訳」のひな型になるか

　このモデルの有望な応用用途の一つが、バイリンガルの注釈者を必要としない、異なる言語間の「通訳」だ。世界では約7000の言語が話されているという推計がある。だが、音声認識のために十分な文字起こしデータが確保できる言語は、その中で100程度にすぎない。

　ここで2つの異なる言語の話者が同じ画像について説明する状況を想定してみよう。今回のモデルが画像内のオブジェクトに対応する言語Aの音声信号を学習すれば、同じオブジェクトに対応する言語Bの信号も学習できる。そうなれば、この2つの信号（と、それらに該当する言葉）は、相互の「通訳」ということになる。

　研究者は、「『バベルフィッシュ』のようなメカニズムが実現する可能性がある」と語る。バベルフィッシュは、『銀河ヒッチハイクガイド（Hitchhiker’s Guide to the Galaxy）』というSFに登場する、架空の生物だ。脳波を吸収し、さまざまな言語を翻訳して着用者に聞かせる生きたイヤフォンという設定である。

MITの研究チーム、画像内のオブジェクトを音声によって識別する機械学習システムを開発：膨大な文字起こしデータが不要

Siriとは何が違うのか

「自動通訳」のひな型になるか

関連記事

関連リンク

Smart & Social 記事ランキング