AIの音声／画像認識技術は人間レベルを超えた！？ Microsoftによる最新AI技術。Japan Partner Conference 2017 Tokyo：イベントから学ぶ最新技術情報

日本マイクロソフトはパートナー向けカンファレンスで、最先端テクノロジとして同社のAI技術を披露し、音声認識や画像／動画認識の精度が格段に上がってきており、「AIの認識技術はすでに人間レベルを超えている」と説明した。

» 2017年09月07日 05時00分公開

[一色政彦，デジタルアドバンテージ]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

ご注意：本記事は、＠IT／Deep Insider編集部（デジタルアドバンテージ社）が「deepinsider.jp」というサイトから、内容を改変することなく、そのまま「＠IT」へと転載したものです。このため用字用語の統一ルールなどは＠ITのそれとは一致しません。あらかじめご了承ください。

　test日本マイクロソフトが9月1日に開催したパートナー向けイベント「Japan Partner Conference 2017 Tokyo ～Inspire Japan!～」では、FY18（会計年度2018：日本マイクロソフトでは2017年7月～2018年6月まで）における戦略や、注力分野、事例が紹介された。

　戦略としては、従来の「モバイルファースト、クラウドファースト」にAI要素を足して発展させた「インテリジェントクラウド、インテリジェントエッジ」というコンセプト（図1）および、デジタルトランスフォーメーションを実現するために注力する重点ソリューション（モダンワークプレース／ビジネスアプリケーション／アプリケーション＆インフラストラクチャー／データ＆AI）が示された。

図1　インテリジェントクラウド、インテリジェントエッジ

　特に注力していく最先端テクノロジの分野としては、AI（人工知能）とMR（Mixed Reality）のHoloLensが取り上げられ、そのパートナー事例が多数発表された。本稿ではその中でも特に印象に残ったAIのデモ内容について、いくつかかいつまんで紹介しよう。

ここまで進んだAI技術～マイクロソフトのデモ内容から～

　マイクロソフト技術による音声認識や画像／動画認識の精度が格段に上がってきている。具体的には、2017年8月20日に「AIによる音声認識が人間の誤認識率（WER：Word Error Rate）より低くなった」ことがマイクロソフトにより発表されており、さらに画像認識においてはすでに人間の誤認識率より低いとのこと（図2）。つまり、AIの認識技術が人間レベルをいよいよ超えてきているということだ。

図2　AIの認識技術は人間レベルを超える

音声認識の技術：文脈からの訂正

　最先端の音声認識技術として示されたデモと同じことが、PowerPoint 2016にPresentation Translatorアドインをインストールすることで自分でも試せるとのこと（※ダウンロードはこちらから行えるが、筆者の環境ではインストールに失敗して試せなかった……）。

　同音異義語の多い日本語では、認識した文字の漢字は間違えてしまうことがよくあるが、Presentation TranslatorアドインのAIにより、一度間違えた漢字であっても、その後の文脈に基づき、前に戻って適切に修正されていくとのこと（図3）。

図3　一度誤認識されても文脈から訂正される

　また、音声から気持ちを読み取って疑問符にしたりするという文脈分析も可能である。

画像認識の技術： Cognitive Services

　マイクロソフトは「AIの民主化、みんなのAI」というキーワードの下、Cognitive Services（クラウド上のWeb API）を推進している。今回のイベントでは、画像認識の技術について、Cognitive Servicesのサンプルを使ったデモがいくつか紹介された。

　例えば、2016年に大ヒットしたTVドラマ『逃げるは恥だが役に立つ』の“恋ダンス”をリアルタイムに分析して登場人物や風景の検出・分類が自動的に素早く行えることや、ヒアリとそれ以外のアリを機械学習すれば高精度に判定できることなどが示された。