音声コミュニケーションを効果的にする「AI字幕」を試してみよう：羽ばたけ！ネットワークエンジニア（33）

筆者が主宰する情報化研究会で「感情表現字幕システム」についてNHKテクノロジーズの岡田俊一氏に講演していただいた。AIを使った字幕（AI字幕）は効果的なコミュニケーションの実現に役立ちそうだ。

» 2020年10月26日 05時00分公開

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　これまで字幕というものに強い関心を持ったことがなかったが、NHKテクノロジーズの岡田俊一氏による講演「感情表現字幕システム」を聞いた後、気になり始めた。

　岡田氏によるとテレビのニュースやバラエティー番組で流れる字幕は専用のタイプライターを使って、人間がリアルタイムで打ち込んでいるのだそうだ。ニュースで字幕の表示が若干遅れるのは入力に間違いがないかチェックしているためだ。バラエティーはともかくニュースで誤りは許されない。そんな話を聞いた後でテレビの字幕を見ると大変だなあと感心してしまう。

　岡田氏の講演で紹介された「感情表現字幕システム」はこの字幕をAIで自動作成する。しかも、話し手の感情を表す文字を使うことが特徴だ。

感情表現字幕システムとは

　感情表現字幕システムはNHKテクノロジーズと大日本印刷（DNP）の共同開発で、元になっているのは大日本印刷が開発した文脈解析で感情表現フォントに変換する「DNP感情表現フォントシステム」だ。NHKテクノロジーズはこれを放送の字幕に適用することを思い付いた（発表資料）。

　感情表現フォントとは文脈から人の喜怒哀楽や恐怖といった感情を読み取って、それを表すのにふさわしい色、大きさ、形のフォントをそれぞれの言葉に適用するものだ。これを字幕に使うことで、「役立つ字幕から楽しめる字幕」にするのが感情表現字幕システムの目的だ（図1）。

図1　感情字幕システムの表示例（出典：NHKテクノロジーズ）

　感情表現字幕システムの仕組みは図2の通りだ。顔の位置や表情の映像をAI（人工知能）で解析して感情分析する。音声はテキスト化し文脈から感情分析する。これらを総合して感情表現字幕を自動生成する。

図2　感情字幕システムの仕組み

音声を見える化する字幕の目的とは

　字幕が付くサービスは数多い。古くからある映画の字幕やテレビの字幕放送はもちろん、「ニコニコ動画」のコメントや「YouTube」の字幕作成ツールがある。「Zoom」の画面にも「CC字幕」（後述）というボタンが付いている。

　実は筆者もロボットを使った見守りサービス、「みまもりパペロ」で2種類の字幕を使っている。一つは当初からある機能で、高齢者が家族に音声メッセージを送るときに使う。ロボットに送りたいメッセージを話すと音声をテキスト（字幕）に変換し、元の音声と一緒に家族に送信する。家族がメッセージをスマートフォンで開くとテキストが表示される。実際に使ってみるとクラウドAIによる音声認識はかなり精度が高く、誤変換は極めて少ない。自宅など音声を出力しても差し支えない場所ではメッセージに付いた「再生ボタン」をタップすると音声を聞くこともできる。この機能を使って自作の川柳を家族に送るのを毎日の楽しみにしている高齢者もおられる。

　もう一つは2020年9月に追加したばかりの機能で、ロボットが高齢者に話す内容を音声だけでなく、大きな文字の字幕でディスプレイに表示するものだ。これまでは聞き逃さないように、デフォルトで同じことを2回話すようにしていたのだが、字幕を表示するようになって分かりやすくなったと喜ばれている。

　AI字幕か通常の字幕かにかかわらず、字幕には図3のように3つの目的がある。「聴覚を補う」「処理と保存を可能にする」「視覚で伝達効果を高める」だ。ビジネスでは後の2つが特に重要になる。テレビ放送で音声と同時に字幕が表示されると、字幕があった方が分かりやすく、速く理解できると感じた経験がないだろうか。早口で聴き取りづらい話し手の言っていることも、字幕があれば「読み取れる」。字幕は伝達効果を高めるのだ。

図3　音声を「見える化」する字幕の目的

ビデオ会議サービスでのAI字幕

　在宅勤務が当たり前になり、毎日のようにビデオ会議サービスを使うビジネスマンにとってはビデオ会議サービスでの字幕利用の可否が気になるところだ。企業がビデオ会議で使う字幕では、テレビ局がニュースなどで流す字幕のように人間がリアルタイムに打ち込むなどというコストのかかることはできない。AIで字幕を自動作成できなければ使えない。

　主なビデオ会議サービスのAI字幕対応状況は図4の通りだ。ZoomはサードパーティーのAI字幕を利用できる。Zoomの画面にある「CC字幕」のCCはクローズドキャプション（closed captioning）の略で、利用者がメニューで「表示」を選択しない限り字幕が表示されない。これに対して、利用者全員に対して表示される字幕をオープンキャプションという。

図4　主なビデオ会議サービスのAI字幕対応状況

　Zoomの日本語に対応したサードパーティーのAI字幕は、ネット上で使い方がビデオ公開されている。筆者が使っているZoomではそのAI字幕を使える環境にないので、残念ながら試したことはない。ただ、講師の話す内容をこのAI字幕でリアルタイムにスクリーンに表示している説明会をビデオで見ることができた。このビデオを見る限り、誤認識がけっこう発生していた。AIが間違った言葉を人間が修正できるようになっていて、数秒後に訂正されていた。1分ほど聴いているうちに何度も修正が入る。企業がZoomで使う場合、人力で修正はできないだろうから、利用者が頭の中で正しい言葉に置き換えて読むしかない。筆者の個人的感想にすぎないが、この精度では字幕を読むことがストレスになると感じた。

　「Microsoft Teams」や「Google Meet」では日本語字幕がサポートされていない。PowerPoint Onlineの「ライブ字幕」という機能を使って、Teamsの画面に字幕を重ねて表示するテクニックがネットで紹介されていたものの、認識の精度がどの程度か確認するすべはない。

　ビデオ会議サービスでAI字幕がストレスなく使えるには、音声認識や構文解析の精度がかなり高くなければならない。高くなければ視覚で伝達効果を高めたり、処理や保存の対象としたりすることは難しいだろう。

　AI字幕の現在の実力は「お試し」利用ができるレベル、とするのが妥当だろう。しかし、AIによる音声認識や構文解析の技術は日進月歩で進んでおり、そう遠くない時期に実用的なAI字幕が登場するだろう。

　主要なビデオ会議サービスのAI字幕の状況をウォッチしつつ、コミュニケーションサービスへ活用するタイミングを計ってみてはいかがだろうか。

筆者紹介

松田次博（まつだ　つぐひろ）

情報化研究会主宰。情報化研究会は情報通信に携わる人の勉強と交流を目的に1984年4月に発足。

IP電話ブームのきっかけとなった「東京ガス・IP電話」、企業と公衆無線LAN事業者がネットワークをシェアする「ツルハ・モデル」など、最新の技術やアイデアを生かした企業ネットワークの構築に豊富な実績がある。企画、提案、設計・構築、運用までプロジェクト責任者として自ら前面に立つのが仕事のスタイル。本コラムを加筆再構成した『新視点で設計する　企業ネットワーク高度化教本』（2020年7月、技術評論社刊）、『自分主義　営業とプロマネを楽しむ30のヒント』（2015年、日経BP社刊）はじめ多数の著書がある。

東京大学経済学部卒。NTTデータ（法人システム事業本部ネットワーク企画ビジネスユニット長など歴任、2007年NTTデータプリンシパルITスペシャリスト認定）を経て、現在、NECデジタルネットワーク事業部エグゼクティブエキスパート。

「在宅」ファーストの企業ネットワーク設計、3つのポイントとは？
新型コロナウイルスの感染予防対策として、在宅勤務が一気に広がった。今や企業のネットワークユーザーは社内ではなく自宅からアクセスしている場合が少なくない。「アフターコロナ」となっても、働き方改革の定着と相まって在宅ファーストは続くだろう。このような状況を前提とした企業ネットワーク設計のポイントについて述べる。
「Microsoft Teams＋FMC」で、PCは電話を飲み込んでしまうのか？
携帯大手3社はMicrosoft TeamsとFMCを連携させたクラウド電話サービスに注力している。TeamsがあればPBXが不要になり、固定電話機がなくてもPCが電話機代わりになる。今後、PCは電話を飲み込んでしまうのだろうか？
Windows Updateで大渋滞のフレッツ網、自衛策は？
2019年8月29日午前、Windows Updateに起因するフレッツ網の輻輳で、企業ネットワークは端末のタイムアウトなど大きな被害に遭った。このような場合、輻輳が収まるのを待ち続ける以外に対策はないのだろうか。