これから始める人のための最新Cognitive Services入門：AI・機械学習のクラウドサービス（3/7 ページ）

» 2017年10月20日 05時00分公開

[横浜篤，Microsoft MVP for AI]

前のページへ 1|2|3|4|5|6|7 次のページへ

音声 ― Speech ―

▲APIの一覧に戻る

Translator Speech API

　音声やテキストを翻訳するAPI群だ。従来のStatistical Machine Translation（統計的機械翻訳。以下、SMT）テクノロジから比べると、ディープニューラルネットワーク（以下、DNN）に基づいた翻訳技術の開発によって、近年、日本語の翻訳品質も向上している。ただし全てのAPIで、DNNに基づいた翻訳が可能ではない点には注意したい。

Text Translation API

　テキストから言語検出と翻訳を行い、翻訳済みのテキストを返すAPIである。Microsoft Translatorの「Try & Compare」ページで、SMTとDNNでの翻訳の違いを試すことも可能だ。

text-translator-sample

図9　Microsoft Translatorの「Try & Compare」でText Translationを試すことが可能

Speech Translation API

　音声から翻訳を行って、その翻訳音声を返すAPIである。音声を認識する際、以下の処理を行うことで認識精度を上げている。処理の至るところでDNNに基づいた技術が使われている。

音声をテキストに変換
テキストを正規化
翻訳
テキストを音声に変換

speech-tnranslation-sample

図10　音声認識の仕組み

Translation Hub

　ユーザー独自の辞書や独自のコーパスを学習させることで、カスタムな翻訳ができるプラットフォームだ。しかし、DNNに基づいた翻訳は未対応である。フィードバックは挙がっており、筆者としても早期の対応を望んでいる。

▲APIの一覧に戻る

Speaker Recognition API（プレビュー）

　声から人を識別するAPIだ。以下の2つとも、事前に登録することで、識別ができるようになる。

スピーカーの確認： スピーカーが特定フレーズの音声を登録することで、登録した人と同一の音声かを判断できる。
スピーカーの識別： 特定の複数人のスピーカーの音声を事前に登録してくことで、登録した人の誰が話したかを識別する。登録の際、特定のフレーズには依存しない。

▲APIの一覧に戻る

Bing Speech API

　人間の発話をテキストに変換、テキストを音声に変換するサービスだ。音声を認識する際、そのタイプに応じた認識モードの選択によって精度を調整する機能や、テキストを音声にする際に音声合成マークアップ言語（SSML）を操作して調整するなどの機能がある。

▲APIの一覧に戻る

Custom Speech Service（プレビュー）

　主に以下の2つのコンポーネントを構築し、トレーニングすることで、音声認識の精度を上げるサービスだ。

Acoustic model（音響モデル）： 例として、騒音の多い工場で、騒音を除去して音声を認識できる。
Language model（言語モデル）： テキストを登録することで、音声の用語集を構築できる。

　Bing Speech APIと連携して利用することで、より高精度な音声認識を行うことができる。これは他社の音声認識のサービスと差別化を図れそうなポイントなのだが、残念ながら本執筆時点では日本語には未対応である。

▲APIの一覧に戻る

マイクロソフトが提供しているアプリ

　マイクロソフトが提供している翻訳に関するアプリの一部を紹介しよう。

Skype翻訳（Skype Translator）

Skypeで通話中に、リアルタイムに翻訳してくれる機能で、2017年の4月より日本語対応が追加された。利用ができるSkypeはWeb版とデスクトップ版だ。

Microsoft Translatorアプリ

リアルタイムに音声を翻訳してテキストにするアプリで、こちらで公開されている。

PowerPointアドイン

プレゼンテーション時にリアルタイム字幕翻訳ができるアドインで、こちらで公開されている。

言語 ― Language ―

前のページへ 1|2|3|4|5|6|7 次のページへ

Copyright© Digital Advantage Corp. All Rights Reserved.

SpecialPR

スポンサーからのお知らせPR

SpecialPR

＠IT eBook

「10」からの移行に迷っているなら必読の無料eBook『Windows 11を賢く使うためのTIPS Vol.1』

終わらせましょう。複雑過ぎるKubernetes／クラウドネイティブが生む心理的安全性の低下を――無料でクラウドセキュリティの勘所が分かる130ページの電子書籍

日本の半導体産業は復活できるのか？　半導体産業のいまと未来を見る

ユーザーの「無知」は罪なのか？――IT訴訟解説ベンダーvs.ユーザー企業死闘編

» 一覧ページへ

注目のテーマ

システム開発ノウハウ【発注ナビ】PR

編集部からのお知らせ

1/27～28【無料オンラインセミナー】『＠IT NETWORK Live Week 2025 冬特別編集版──ビジネスが変わる、ネットワークが変わる』で、メルカリ VP of Security & Privacy Jason Fernandes氏による【基調講演　開発を加速するプロダクトセキュリティとは】、日清食品ホールディングス執行役員CIO グループ情報責任者成田敏博氏による【基調講演　日清食品グループにおけるSASE／ゼロトラストとセキュリティの今】を配信

あなたにおすすめの記事PR

@ITについて

RSSについて

＠ITのRSS一覧

アイティメディアIDについて

アイティメディアIDとは

メールマガジン登録

＠ITのメールマガジンは、もちろん、すべて無料です。ぜひメールマガジンをご購読ください。

申し込みページへ

ITmediaはアイティメディア株式会社の登録商標です。

メディア一覧 | 公式SNS | 広告案内 | お問い合わせ | プライバシーポリシー | RSS | 運営会社 | 採用情報 | 推奨環境