音声やテキストを翻訳するAPI群だ。従来のStatistical Machine Translation(統計的機械翻訳。以下、SMT)テクノロジから比べると、ディープニューラルネットワーク(以下、DNN)に基づいた翻訳技術の開発によって、近年、日本語の翻訳品質も向上している。ただし全てのAPIで、DNNに基づいた翻訳が可能ではない点には注意したい。
Text Translation API
テキストから言語検出と翻訳を行い、翻訳済みのテキストを返すAPIである。Microsoft Translatorの「Try & Compare」ページで、SMTとDNNでの翻訳の違いを試すことも可能だ。
Speech Translation API
音声から翻訳を行って、その翻訳音声を返すAPIである。音声を認識する際、以下の処理を行うことで認識精度を上げている。処理の至るところでDNNに基づいた技術が使われている。
Translation Hub
ユーザー独自の辞書や独自のコーパスを学習させることで、カスタムな翻訳ができるプラットフォームだ。しかし、DNNに基づいた翻訳は未対応である。フィードバックは挙がっており、筆者としても早期の対応を望んでいる。
声から人を識別するAPIだ。以下の2つとも、事前に登録することで、識別ができるようになる。
人間の発話をテキストに変換、テキストを音声に変換するサービスだ。音声を認識する際、そのタイプに応じた認識モードの選択によって精度を調整する機能や、テキストを音声にする際に音声合成マークアップ言語(SSML)を操作して調整するなどの機能がある。
主に以下の2つのコンポーネントを構築し、トレーニングすることで、音声認識の精度を上げるサービスだ。
Bing Speech APIと連携して利用することで、より高精度な音声認識を行うことができる。これは他社の音声認識のサービスと差別化を図れそうなポイントなのだが、残念ながら本執筆時点では日本語には未対応である。
マイクロソフトが提供している翻訳に関するアプリの一部を紹介しよう。
Skype翻訳(Skype Translator)
Skypeで通話中に、リアルタイムに翻訳してくれる機能で、2017年の4月より日本語対応が追加された。利用ができるSkypeはWeb版とデスクトップ版だ。
Microsoft Translatorアプリ
リアルタイムに音声を翻訳してテキストにするアプリで、こちらで公開されている。
PowerPointアドイン
プレゼンテーション時にリアルタイム字幕翻訳ができるアドインで、こちらで公開されている。
Copyright© Digital Advantage Corp. All Rights Reserved.