新技術VoiceXMLは、デベロッパにもメリットをもたらす?

2001/11/9
By Jennifer Tomaro, CommWeb.com Sep 12, 2001(4:13 PM)

 プッシュフォンを使った電話ベースのインターフェイス(IVR:対話型音声応答)によるデータベース情報へのアクセスに代わって、電話をかけた人間がWebページに埋め込まれた情報にアクセスできるようになるという「Voice Web」構想が進んでいる。

 このVoice Webは、既存のIVRだけでなく、WebサーバやWebプログラミングの世界からも恩恵を受ける。Voice Webを、Webベースかつ標準ベースのアプローチと組み合わせて音声アプリケーションを開発すれば、柔軟なホストベースの音声アプリケーション環境が手に入ることになる。

 つまり、高価な専用IVRサーバ(さらには専用のソフトウェアとハードウェアも)を購入してLAN上で「(使わずに)置いておく」代わりに、サービスプロバイダが専用のハードウェア/ソフトウェアをオフサイトで提供してくれれば、それを利用することができる。情報は社内のWebサイトから取得され、エンドユーザーであるあなたは(おそらく)、セットアップ料と実費を支払うだけでその恩恵を受けることができるのだ。

 これが実現すれば、音声対応技術を試したいというユーザーに可能性が開けるだけでなく、イベントなど期間限定でサービスを提供して破棄してしまう単発の参加/ステータス処理アプリケーションといった「使い捨て」アプリケーションにも大いに役立つ可能性がある。

VoiceXMLの台頭

 VoiceXMLは、電話の通話者間での音声による会話といった身近なアプリケーションや、電話をブラウザにするといったWebコンテンツの制作に特化したマークアップ言語だ。

 VoiceXMLは、あらかじめ録音された情報やテキスト読み上げによる情報を利用した音声プロンプトを再生したり、(会話認識機能を使った)音声コマンドやプッシュフォンのボタン入力を受け付けたり、発信者の音声情報を録音するといった機能を持つ。

 VoiceXML ForumがVoiceXML 1.0の最初の業界仕様を送り出したのは2000年の3月だった。同フォーラムはその後、この言語の技術進化をWWW Consortium(W3C)の音声ブラウザ作業グループに委ね、同グループが年内に予定されるVoiceXML 2.0のリリースに向けた作業を進めている。

 われわれが把握する限りでVoiceXMLには、次の5つの大きなメリットがある。

1) 社内Webサーバに格納される、もしくはWebサーバ経由でアクセスされる情報にアクセスするための組み込み機能を提供

 一般に、IVRシステムは複数の社内データベースへのアクセスを要求するため、社内Webサーバ経由ですでに実装されているデータベース接続機能は、どれもVoiceXMLスクリプトの中で直接利用できる。このため、開発時間と費用が大幅に節約でき、メンテナンスコストも大幅に削減できる可能性がある(一粒で2度おいしい)。

2) 既存のWebアプリケーション開発ツールをVoiceXMLベースのIVRアプリケーション開発用に利用可能

 このようなツールや開発手法を使うことは、ローレベルのIVRプラットフォームやデータベースアクセスの詳細部分から、IVRアプリケーションのデベロッパーを開放してくれるのである。

3) Webおよびインターネットの進歩をコンピュータテレフォニーにも反映させ、音声処理市場が大幅に拡大

 IBMの戦略提携マネージャで、VoiceXML Forum会長のBill Dykas氏は、このメリットを以下のように単刀直入に語ってくれた。

 「VoiceXMLは既存のWebデベロッパーのスキルを高めてくれるし、巷にあふれるデベロッパーをうまく活用することもできる。また、(VoiceXMLは)オープンかつ標準なので、アプリケーションのポータブル性が増す。その結果、市場の音声アプリケーションが拡大することになるというわけだ」(Dykas氏)

 また、VoiceXMLでは音声アプリケーションの開発においても高度な専門知識を必要としないため、音声アプリケーションの開発期間が一段と短縮される、との意見も多い。すなわち、VoiceXMLドキュメントのダイナミックな作成には、Webサーバベースのスクリプティング言語(Perl、ASP、JSP、etc)をどれでも利用することができる。これにより、ほかのWebベースのプログラムが、オン・ザ・フライで実行されるVoiceXMLページへと自動的に生成できるようになる。

4) アプリケーションの互換性実現

 Dykas氏の言及にあるように、VoiceXMLは(まだ登場したばかりで今後発展していくものではあるものの)標準であるため、(理論上は)開発したものを失うことなくVoiceXML準拠のほかのIVRプラットフォームベンダへ自由に移行できる。

5) ASR(自動音声認識)とTTS(テキスト音声変換)の両リソースを音声処理アプリケーションに統合する作業が大幅に軽減

 ASR/TTSベンダ各社がVoice WebやVoiceXMLの開発にこれほど熱心になっている理由の1つがこれだ。

 原始的なTTSおよびASRは「エレメント」と呼ばれるVoiceXMLコマンドにダイレクトに組み込まれている。音声サーバがこれらをサポートする限り(大半はする)、VoiceXMLスクリプトはかなり容易に両方の技術を使うことができる。

 特に、ASRはテキストベースの「グラマー」を構築することで利用することができる。これらのグラマーは、VoiceXMLでスクリプト記述された通話中におけるあらゆるタイミングでの発声許容度を指定する。

 IVRアプリのデベロッパーは、VoiceXMLが登場するまでは、アプリケーションにコマンドを「聞かせる」必要のある場所すべてで話者に依存しない「語彙」の中の発声数を慎重に管理する必要があった。これらの語彙は決まり切ったものであることが多く、メニューのどの場所でも「コマンド対応」となる言語の数としてはかなり少なかった。これからはテキストベースのグラマーを構築すればよいだけとなる。

 1つだけ確かなことは、ASR(Automatic Speech Recognition)とTTS(Text-to-Speech)が確実にIVRの操作性を向上してくれ、より自然な音声による入力によって厄介なプッシュフォンベースのインタフェースに取って代わり、かなりしっかりしたテキストベースの将来性によって限られた種類の録音情報出力に取って代わってくれることだ。これらは開発に課題があったため発展が遅れていたが、VoiceXMLがその状況を変えてくれるかもしれない。

 全体として、われわれはVoiceXMLが発展途上の市場であることと、特にVoiceXMLがその揺らん期にあることはかなり明確に認識しているが、それでもポテンシャルはかなりのものだと思われる。

*この記事は一部編集しています。

[英文記事]
The Voice Web: CT's New Terminator App?

[関連記事]
XMLの注目される特徴とは何か? (XML eXpert eXchange)
Googleが新ユーザ・インターフェイスでパワーアップ (@ITNews)
沖電気とマイクロソフトが音声・データ統合で提携 (@ITNews)
音声・IP対応の課金システム、ルーセントとHP (@ITNews)

Copyright(c) 2001 CMP Media LLC. All rights reserved

情報をお寄せください:



@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)