音声はコンピューティングを変える?:安藤幸央のランダウン(8)
「Java FAQ(What's New)」の安藤幸央氏が、CoolなプログラミングのためのノウハウやTIPS、筆者の経験などを「Rundown」(駆け足の要点説明)でお届けします。(編集局)
Webを活用したオンラインサービスが一般的になってきました。オンライン上で本の購入、航空券の予約、銀行残高の確認など、違和感なく行う人も多いことでしょう。
携帯電話も次々に新機種が登場し、高機能化の道をたどっています。新機能を活用した便利なサービスも数多く立ち上がってきました。最近ではオンラインサービスも一歩進み、より使いやすく便利なものとして「音声」を活用したサービスが登場しています。
携帯電話の小さな数字キーで文字を入力するよりも、音声で情報を入力する方が操作ははるかに簡単です。携帯電話は小型化が進んでいるのに、人間の親指の大きさは変わりませんから、「音声」の優位性は明らかです。
音声によるインターフェイスやナビゲーションを利用したサービスの例としては、以下のものが挙げられます。
- 音声ポータル
- 音声コマース
- 無線通信/インターネットの音声インターフェイス
- 車載システム
- 機械翻訳
この中から、いくつかの具体例とベースとなる技術を紹介していきましょう。
音声ポータル
国内でも、音声を利用したコンテンツサービスがすでに展開されています。ここでは3つのサービスを紹介しましょう。
●V-Portal
V-Potalは、NTTコミュニケーションズが提供する音声コンテンツのポータルサイトです。天気・株価・ニュース・グルメ情報・占い・音声ゲーム・道路交通情報など、各種音声サービスが提供されています。また個人用のスケジューラや、最近開始されたCMソング検索サービスなど、意欲的なコンテンツが展開されています。
●Voizi
Voiziは日本テレコムが提供する音声ポータルサービスです。Voiziのサービスの1つとして、「Voizi Lab!」というオリジナル音声コンテンツの制作サービスがあります。このサービスでは、HTMLで自分のホームページを作成するようにVoiceXMLで自分の音声コンテンツを作成することができるのです。またVoiziは、ポータルサイトとして各種情報が音声で入手できるようになっています。
●Boxer
Boxerは、個人情報の一元管理を行う統合型情報管理ツール(CIM=Comprehensive Information Manager)としてのサービスを提供しています。外出時は携帯電話で音声操作を行い、会社や自宅ではパソコンで操作するという状況に応じた情報提供を行うサービスです。
これらのサービスのベースになっているのは、VoiceXML ForumとW3C(World Wide Web Consortium)が中心となって策定する「VoiceXML」です。VoiceXMLはWebサービスのみならず、地上波デジタル放送での双方向サービスにも活用され、多岐にわたる音声サービスの基となっています。VoiceXMLをベースとすることで、コンテンツプロバイダは音声コンテンツを提供する機会が広がります。
VoiceXMLとは
VoiceXMLは情報交換用のWeb標準であるXMLの一種です。XMLの仕様に従って音声対応の表記方法を規定したもので、音声認識、音声合成、電話回線制御などの表記方法が規定されています。VoiceXMLは標準化団体VoiceXML Forumによってバージョン1.0の仕様が規定され、その後Webの標準化団体W3Cによって承認されています。現在VoiceXML Forumは、VoiceXML 2.0の策定に注力しています。
VoiceXMLを使うメリットは、XML言語をベースとした表記方法を用いることでより簡単に音声サービスを構築できることにあります。音声の入出力をVoiceXMLが仲介するため、従来のWebアプリケーションサービスからは「音声」ということを意識することなくXMLデータの入力、出力ができるのです。
●VoiceXML Forum
http://www.voicexml.org/
●W3C VoiceXML 1.0仕様
http://www.w3.org/TR/voicexml/
●W3C VoiceXML 2.0仕様(Working Draft)
http://www.w3.org/TR/2001/WD-voicexml20-20011023/
音声サービスのための環境、関連ソフトウェア
また、音声をインターフェイスとしたサービスを構築するためのソフトウェアも続々と登場しています。サン・マイクロシステムズ、アイ・ビー・エムなどの海外ベンダーだけでなく、国内では沖電気が提供しています。
●VoiceTone
サン・マイクロシステムズが、ビーボーカルとニュアンス・コミュニケーションズとの共同で提供する、音声ポータル構築のためのパッケージ。詳細は今後明らかになると思われます(http://www.sun.com/smi/Press/sunflash/2002-03/sunflash.20020313.1.html)。
●IBM WebSphere Voice Server
IBM WebSphereを中心とした、音声サービスを構築するためのソリューション。VoiceXMLエディタ、Grammarエディタ、発音ビルダーに加え、サーバなしにPC上でVoiceXMLのアプリケーションを模擬実行するキットなどが提供されています(http://www-6.ibm.com/jp/voiceland/enterprise/websphere.html)。
●OKI CTstage VoiceXMLパッケージ
コールセンターシステムを構築するためのソリューション。音声だけでなく、FAXや電子メールなどを統合的に組み合わせたサービスを提供します(http://www.oki.com/jp/Cng/CTI/JIS/index.htm)。
●Nain VoiceXML-Editor
音声サービスでは、インターフェイスの流れを作成するストーリー構成が大切です。VoiceXML-EditorはVoiceXML Ver.1.0に対応した専用のエディタで、VoiceXMLのタグを詳しく知らなくてもコンテンツのシナリオを作成することができます(http://www.nain.co.kr/jp/voiceXML_editor.htm)。
そのほか海外のソフトウェアを含め、ここで紹介しきれなかったものも数多くあります。音声関連、VoiceXML関連ソフトウェアは、研究レベルの技術が続々とコンシューマ製品として利用できるようになりつつあります。これからますます注目の分野でしょう。
音声サービスの今後
たとえ技術が進歩しても、やはり専門家のサービスにはかなわないと思われる人も多いでしょう。しかし実はそこに「音声サービス」のヒントが隠されているのです。つまり、専門家では思い付かない、既存のWebサービスに欠けているものに気付くかもしれないのです。
航空券の購入やホテルの予約で、やはり人に応対してもらう方が安心という人もまだ多いと思います。それはオンラインサービスに対して不安を抱いているユーザーがいるというあかしです。不安の要因としては、ユーザビリティに欠陥がありスムーズに操作が行えないこともあるでしょうし、サービスとして何かが物足りないということも考えられます。単に価格が安いというメリットだけではWebサービスは生き残れないでしょう。
音声認識、音声合成の技術は日進月歩で革新が進んでいますが、現時点の技術では既存のサービスをすべて音声サービスに置き換えることはできません。そこで、音声とWebサービス・電子メールサービスなどを組み合わせたハイブリッドタイプのサービスこそ、今後台頭するサービス形態だと思われます。
例えば携帯電話で情報検索をする場合、入力は音声で、情報を受け取る際には動画やメールでというスタイルも定着するでしょう。ユーザーにとって、歩きながら入力できるという「音声」のメリットは大きいものです。PDAやノートパソコンを必要とせず、携帯電話だけで事足りている現市場のユーザー層を見渡すと、「音声サービス」の優位性は明らかです。特に次世代・次々世代携帯電話における音声と動画を組み合わせたサービスは、高い将来性と大きな市場が開けることが予想されます。
携帯電話技術は日進月歩で進化しています。そんな中、携帯電話単体の性能ばかりに目がいきがちですが、実際にそこで享受できるサービスこそが大切です。つまり、そこで評価すべき対象は電話機単体の機能ではなく、ネットワーク機能、アプリケーションサーバも含めた、さまざまなテクノロジとコンテンツの集合体としてのサービスなのです。
今後、既存のサービスからは想像できない「音声」ならではのサービスが続々と登場してくることを期待します。
■VoiceXML関連書籍
- VoiceXML: Professional Developer's Guide With CDROM
ISBN 0471418935 - Voice Enabling Web Applications: VoiceXML and Beyond(With CD-ROM)
ISBN 1893115739 - Voice Application Development with VoiceXML
ISBN 0672321386 - Early Adopter VoiceXML
ISBN 1861005628 - The VoiceXML Handbook: Understanding and Building the Phone-Enabled Web
ISBN 1578200849
次回は5月10日の公開予定です。
プロフィール
安藤幸央(あんどう ゆきお)
1970年北海道生まれ。現在、株式会社エヌ・ケー・エクサ マルチメディアソリューションセンター所属。フォトリアリスティック3次元コンピュータグラフィックス、リアルタイムグラフィックスやネットワークを利用した各種開発業務に携わる。コンピュータ自動彩色システムや3次元イメージ検索システム大規模データ可視化システム、リアルタイムCG投影システム、建築業界、エンターテインメント向け3次元 CG ソフトの開発、インターネットベースのコンピュータグラフィックスシステムなどを手掛ける。また、Java、Web3D、OpenGL、3DCG の情報源となるWebページをまとめている。
ホームページ:
http://www.gimlay.org/~andoh/java/
所属団体:
OpenGL_Japan (Member)、SIGGRAPH TOKYO (Vice Chairman)
主な著書
「VRML 60分ガイド」(監訳、ソフトバンク)
「これがJava だ! インターネットの新たな主役」(共著、日本経済新聞社)
「The Java3D API仕様」(監修、アスキー)
Copyright © ITmedia, Inc. All Rights Reserved.