これから始める人のための最新Cognitive Services入門:AI・機械学習のクラウドサービス(3/7 ページ)
「AIの民主化」、全エンジニアがAIを活用する時代を迎えようとしている。多彩なAIサービスをWeb API形式で提供するCognitive Servicesでは何ができるのか? この記事で必要十分な基礎知識を素早く獲得しよう。
音声 ― Speech ―
Translator Speech API
音声やテキストを翻訳するAPI群だ。従来のStatistical Machine Translation(統計的機械翻訳。以下、SMT)テクノロジから比べると、ディープニューラルネットワーク(以下、DNN)に基づいた翻訳技術の開発によって、近年、日本語の翻訳品質も向上している。ただし全てのAPIで、DNNに基づいた翻訳が可能ではない点には注意したい。
Text Translation API
テキストから言語検出と翻訳を行い、翻訳済みのテキストを返すAPIである。Microsoft Translatorの「Try & Compare」ページで、SMTとDNNでの翻訳の違いを試すことも可能だ。
Speech Translation API
音声から翻訳を行って、その翻訳音声を返すAPIである。音声を認識する際、以下の処理を行うことで認識精度を上げている。処理の至るところでDNNに基づいた技術が使われている。
- 音声をテキストに変換
- テキストを正規化
- 翻訳
- テキストを音声に変換
Translation Hub
ユーザー独自の辞書や独自のコーパスを学習させることで、カスタムな翻訳ができるプラットフォームだ。しかし、DNNに基づいた翻訳は未対応である。フィードバックは挙がっており、筆者としても早期の対応を望んでいる。
Speaker Recognition API(プレビュー)
声から人を識別するAPIだ。以下の2つとも、事前に登録することで、識別ができるようになる。
- スピーカーの確認: スピーカーが特定フレーズの音声を登録することで、登録した人と同一の音声かを判断できる。
- スピーカーの識別: 特定の複数人のスピーカーの音声を事前に登録してくことで、登録した人の誰が話したかを識別する。登録の際、特定のフレーズには依存しない。
Bing Speech API
人間の発話をテキストに変換、テキストを音声に変換するサービスだ。音声を認識する際、そのタイプに応じた認識モードの選択によって精度を調整する機能や、テキストを音声にする際に音声合成マークアップ言語(SSML)を操作して調整するなどの機能がある。
Custom Speech Service(プレビュー)
主に以下の2つのコンポーネントを構築し、トレーニングすることで、音声認識の精度を上げるサービスだ。
- Acoustic model(音響モデル): 例として、騒音の多い工場で、騒音を除去して音声を認識できる。
- Language model(言語モデル): テキストを登録することで、音声の用語集を構築できる。
Bing Speech APIと連携して利用することで、より高精度な音声認識を行うことができる。これは他社の音声認識のサービスと差別化を図れそうなポイントなのだが、残念ながら本執筆時点では日本語には未対応である。
マイクロソフトが提供しているアプリ
マイクロソフトが提供している翻訳に関するアプリの一部を紹介しよう。
Skype翻訳(Skype Translator)
Skypeで通話中に、リアルタイムに翻訳してくれる機能で、2017年の4月より日本語対応が追加された。利用ができるSkypeはWeb版とデスクトップ版だ。
Microsoft Translatorアプリ
リアルタイムに音声を翻訳してテキストにするアプリで、こちらで公開されている。
PowerPointアドイン
プレゼンテーション時にリアルタイム字幕翻訳ができるアドインで、こちらで公開されている。
Copyright© Digital Advantage Corp. All Rights Reserved.