[Analysis]
Google Voiceはやっぱりすごかった
2011/09/20
Web業界は電話関連ビジネスを飲み込もうとしているのではないか。もう1年以上も前になるが、2010年5月に米国に出張した際に、そういう印象を受けた。といっても、VoIPのことではない。電話帳がSNS内のソーシャルグラフで置き換えられるということとも、ちょっと違う。電話の音声サービス全般のことだ。これは、VoIP普及以上にインパクトのある技術トレンドなのではないかと思うのだ。
そう感じた理由の1つ目は、米国で一般ユーザー向けにも提供が始まった電話・音声サービス「Google Voice」を使ってみて、その使い勝手の良さに舌を巻いたこと。今さら、Google Voiceがどうしたの? と思う人もいるかもしれないが、改めて検索してみて、どうも日本にはGoogle Voiceのインパクトが全く伝わっていないように感じている。
もう1つは、Twilioというベンチャー企業の存在を知ったことだ。久しぶりに会ったサンフランシスコの友人が、最近Twilioという会社に転職したというので話を聞いてみて、その基本コンセプトに私は唸ってしまった。
Twilioは、RESTやXML、PHP、Ruby on RailsといったWeb開発で一般に使われている技術を組み合わせ、音声応答システムやSMS関連サービスを構築できるようにするプラットフォームをAmazon EC2を使って提供している。Twilioのクラウドが公衆交換電話網(PSTN)とつながっていて、WebとPSTNが地続きとなる。これまで高価で専門的だったテレフォニー関連の“エンタープライジー”な開発を、無償のSDKとAPI提供によって、一気にWebの世界に結び付けるのがTwilioの狙いだ。Twilioは破壊的なイノベーションの典型だと思う。
Google VoiceとTwilioという2つのサービスについて、それぞれ若干の考察とともに紹介したい。
Google Voiceはリアルな電話番号を1つ提供する
Google Voiceは米国内向けにグーグルが提供している電話関連サービスだ。一部機能は日本でも使えるようになっているようだが、ほとんど話題になっていないところを見ると、単に安いVoIPやSkypeのようなサービスだと思われているからではないかと思える。
Google Voiceは2005年創業のベンチャー「GrandCentral」を2007年にグーグルが買収して自社サービス化し、2009年3月にベータ版としてリリース。その後、2010年6月22日に一般公開サービスとなっている。GrandCentral時代からファンは多かったようだが、グーグルのブランドでリリースされたこと、いくつかのブログメディアが大きく報じたこと、iPhone上でWebアプリとして使えるようになったことなどで、それぞれ話題となってきた。
Google Voiceを使い始めるには、まずグーグルが所有する電話番号のうち1つを選択するところから始める。この番号はリアルなアメリカ国内の電話番号で、日本の東京でいえば03番号、大阪なら06番号のような番号だ。ふつうの電話番号と違うのは、この番号は端末に紐付いたものではないということだ。端末への紐付けは明示的に、Google Voiceの設定で登録しておく。最大6台の電話(番号)を登録することができ、Google Voiceの番号に着信したときに6台までが同時に鳴るようになる。自宅やオフィスの固定電話、それから自分のスマートフォンなどを登録しておく。
ワン・ナンバーで嬉しいこと
このワン・ナンバーの機能によって、もはや端末やキャリア固有の電話番号を知人に伝えたり、書類に書いたりする必要はなくなる。グーグルがGoogle Voiceというサービスを提供している限り、あるいは同類のサービスへの移行が将来的に可能である限り、私の米国内での電話番号は、もうただ1つしか存在せず、それは決して変わらない番号となった。まだ国の壁は意識する必要はあるが、いずれこうしたワン・ナンバーはメールアドレスやSkypeのIDと同様に当たり前のものになるのではないかと思う。
出張に持参したSIMロックフリーのAndroid端末の調子が非常に悪くなり(バッテリが死んでいた)、急遽、現地で9ドルと格安の音声端末を入手したのだが、私にはその端末の番号(正確には同時に購入したSIMカードに紐付いた番号)を、誰にも教える必要はなかった。自分で覚える気も、さらさらなかった。ただ、Google Voice上で新たに1つ番号を追加登録しただけである。これで9ドルの使い捨て電話にも、私宛ての電話は、すぐに着信することになった。
さらに、その数日後、新たに入手した「HTC EVO 4G」というAndroid端末についても、その番号をGoogle Voice上で追加登録しただけで、すぐに知人からの電話もかかってきて取ることができるようになった。さらに、その半年後にハワイ旅行に行った際にも、あらかじめホストにGoogle Voiceの番号を伝えておき、現地で買った使い捨てのSIMカードを挿して、すぐにいつもの(米国内)番号で電話を使うことができた。
日本ではMNPなどといって、面倒な事務手続きをやらされた上に転出料金や手数料で数千円も取られるが、雲泥の差だ。
電話番号は、IPアドレスのようなものであるべきだ。インターネット接続では、利用者が場所を移動したり、ISPを乗り換えたら番号(IPアドレス)は変わる。接続のたびに変わるのも珍しくない。しかし、IPアドレスが変わっても、メールは届く。Skypeだって、そのまま使える。IPアドレスが変わったことなど、私自身も、私にコンタクトを取ろうという人も誰も考えもしない。電話番号も、そのような存在であってほしいと思う。
Google Voiceはそういう不変の着信番号を提供してくれる。
すでに現在でも、電話番号を見たときに確認するのは、それが相手のどのキャリアの端末かを見分けるための先頭の数文字であったり、同一番号かどうかを確認するために見る最後の数文字であったりしないだろうか。そしてスマートフォンでは顔アイコンで識別しているし、それらはFacebookから流れ込んだ連絡先だったりもする。
通話中に電話を切り替えるのも簡単
「将来にわたって番号がただ1つで不変」ということだけでも利用価値があると思うが、ほかにもGoogle Voiceには便利な機能が多くある。1対Nの通話のルーティングで可能なことは、だいたいできると考えていい、というほど機能が充実している。いくつか、箇条書き的にまとめてみよう。
1つの番号にかかってきた電話によって複数の電話を同時に鳴らせると書いたが、実際には、時間帯や電話をかけてきた人(の番号)によって、鳴らす端末を選択的に変えることができる。昼間はオフィス、夜は自宅の電話だけを鳴らすということが可能だ。
通話中のラインを、別の電話に切り替えることも可能だ。例えばオフィスの電話で取った電話をいったん保留し、ポケットのケータイに転送して、そのまま話を続けながら出かけるといったことができる。Google Voiceに登録した端末であれば、どの端末からでも「*」ボタンを押すことで、ほかの登録電話が再び一斉に鳴る仕組みになっている。再び鳴っている電話を取れば、どの電話でも通話が続けられる。
通話中に「4」を押すと、通話をクラウド側に録音できる。もう1度「4」を押せば録音は終了する。このように、端末側はあくまでもクラウドの入出力端末という位置付けであるところが、今までの音声サービスにない利便性を感じさせる。音声データはPCのWebブラウザ上(Flash)でも再生できるし、モバイル端末上のGoogle Voiceアプリで聞き返すこともできる。
新規番号の登録は、Webブラウザからだけでなく、未登録の電話からでも可能だ。例えば出張の滞在先の電話を使って、まず自分のGoogle Voiceの番号に電話をかける。そしてボタン操作で転送番号を一時的に追加すれば、その電話にも自分宛ての電話がかかるようになる。
かかってきた電話に対して定型の音声メッセージで応答することができるが、これを相手の番号に基づいて変えることができる。メッセージの紐付けは、個人単位、あるいはグループ単位となる。仕事関連の電話では、社名を名乗るようにするといったこともできるだろう。
電話をかけてきた相手(番号)によって、ブロックする、留守電にする、留守電にしつつ相手の声を聞くなどのオプションもある。日本のキャリアも、特定の番号からの着信を拒否するブロック機能を提供しているが、月額料金を取るほか登録可能な数は限られている。ブロックしたら、相手にそのことが分かるし、相手からのメッセージだけを録音して聞くということもできない。Google Voiceでは、SPAMラベルを付けておいて、後から気になったら聞くということもできる。つまり、従来の電話サービスと比べてはるかに高度で細かな機能が提供できているのだ。
Google VoiceのWeb画面にはSPAM報告ボタンもある。Gmailと同様に、多くのユーザーがSPAMだと報告した番号については、自動的にフィルタリング機能が働くようになる(この機能の利用は、現在オプトインだが)。Google Voiceのヘルプ文書を読むと、もはやネット上ですら電話番号を隠す必要はないと書いてあって驚く。ネット上のパブリックな場所に、どんどん自分の番号を書いてくださいとまで言ってのけるほどの自信なのだ。迷惑ならいくらでもブロックできるし、相手にブロックを悟られないように無視することも可能だからだ。
電話にもソフトウェアの時代がやってきたのだと思う。専用の交換器やコンピュータで、特殊な機能を設計するような時代は終わり、クラウドでつなげる電話は、Webエンジニアが想像する「できて当たり前」のことは何でもできるというわけだ。
後述するTwilioが良い例だが、電話というサービスがクラウドに飲み込まれようとしているのだと思う。Amazon S3でメッセージを預かり、Amazon SQSでビリングシステムを作るといったことが、次世代の“キャリアグレード”になるのではないだろうか。
音声なんか、もう使わない?
ところで音声サービスの話をすると、「でも、今さら電話なんてする? ほとんどメールかSMS、最近だとTwitterやFacebookで済むよね」という反応が多くの人から返ってくる。
私も通話機能を使うことは、ほとんどない。メールやSNSでつながっていても電話番号を知らない人はたくさんいる。
しかし、Google Voiceを使ってみて、ちょっと考えが変わった。私が音声サービスをだんだん使わなくなったのは、音声コミュニケーションが面倒だとか、適した場面が少ないからというばかりではなく、音声サービスがほかのテキスト系サービスに比べて使いづらいまま進化を止めてしまっていたからなのではないかと思うようになった。
キーを叩くよりも、しゃべったほうが楽で速いことはたくさんある。なぜそうしないかといえば、それは音声コミュニケーションによって、相手に「その場で聞くこと」「すぐに応えること」を強要するのが嫌だからである。相手の電話を鳴らすのは、相手の作業を中断して邪魔することだから、相応の理由がないと控えるべきだろう。しかも、もし相手が不在だと結局メールなどに頼るわけで、だったら最初からメールでいい、となるわけだ。
しかし、Google Voiceのように受信者に細かなコントロール権があるのなら、かける側が遠慮する必要はない。都合が良ければ取るだろうし、そうでなければ留守電にするだろう。後述するが、留守電を受けたほうは、必ずしも音声を聞く必要がないし、音声によって返信しなければいけないわけでもない。
メールだと否が応でも用件を文章にまとめるわけで、これにより要点を論理的に列挙することにもつながる。電話でダラダラしゃべられるよりマシという事情もあるかもしれない。しかし、音声コミュニケーションは双方向の行き来を短く繰り返すので、メールのようなもどかしさがなくて良いときもある。ひと言、「いえ、それは違います」と途中で話を制止して回答してもらえば5秒で済むような点について、5分もかけて文章を書くのはむなしい。相手の反応を伺いながら行うコミュニケーションには、大きなメリットがある。
2点間を結ぶ通話の新しい形
Google Voiceでは、Gmail同様のインターフェイスでWebブラウザ上(もしくはAndroidアプリ上)で、電話利用履歴を閲覧・管理できる。ここに留守電メッセージや過去に受けた電話の履歴が並ぶ。留守電の確認が、PCやスマートフォンででできるのだ。
当たり前だと思うだろうか? そんなことはない。これまでの留守電は端末に紐付いていた。電話番号と端末が強く紐付いていたため、留守電も端末個別に蓄えられていたはずだし、PCで確認することもできなかったはずだ。まして、ケータイで受けた留守電に対して、PCからメールやSMSで“返信する”という感覚はなかったと思う。
かかってきていたことに気付かずに取らなかった電話について、折り返し電話する(Call)、SMSを送る(Text)といったアクションが選択できるし、最近はPC上のGoogle Voiceから直接電話もかけられるようになった。
ちょっと変わった使い方だが、クラウド側から2点間を音声で結ぶというのも面白い応用だ。
例えば商業Webサイトに電話番号を埋めこんであるようなケースだ。これまでにもPCにインストールしたIP電話や、Skype-outなどを使えば、PCから「Click to call」もできた。しかし、その場合に可能であるのはPCを使った音声通話だ。餅は餅屋、やはり電話として設計された端末のほうが音声サービスには使いやすいだろう。そのために、画面に表示された数字列をむなしくケータイ端末や家庭用電話の子機に打ち込んだ経験のある人も多いだろう。
Google Voiceは、クラウドがあなたの電話のことを知っているので、こうした作業は不要だ。次のようなことができる。まず、ブラウザ上の電話番号、もしくは電話アイコンをクリックする。すると、自分の電話が鳴り始める。それを取ってみると、実はWebブラウザでクリックした店舗側の番号をすでに呼び出している最中であるという形だ。店舗などはのWebサイトは、ウィジェットを埋め込んで、自分のGoogle Voiceに電話をかけてもらうことができる。
音声とテキストがスムーズに連携
Google Voiceは音声とテキスト、あるいは電話端末とWeb(PC)がスムーズに連携できるのがいいのだと思う。
例えば留守電で、明日の待ち合わせ場所が早口で残されていたとしよう。この早口は音声認識でテキスト化されているので、Webやモバイルアプリで確認できる。このときやるべきことは、内容を確認したら「OK」と手短にテキストで返信することだ。音声で相手を呼ぶほどのことではない。こういうことは、現在のケータイでは面倒だ。まず留守番センターに電話をかけ、留守電の内容を確認し、イライラしながら相手の声に耳を済まし、聞き終わったら何番だかの番号を押してメッセージを消し、その後、メールなりSMSを送るために別アプリを立ち上げるか、アドレス帳を開くかする。
留守電メッセージは、音声認識によりテキスト化されているので、何の用件であるかを確認する程度であれば、そもそも音声を聞く必要がない。モバイル端末向けのGoogle Voiceアプリというのがあるので、テキストによるメッセージ確認は、PCでなければならないというわけでもないし、外出先でも可能だ。つまり、留守電で預かった音声メッセージは、スマートフォン上でメールのヘッダを眺めるようにさっと眺めて、返信するか、音声を聞くか、電話を折り返すかを決められるわけだ。相手がオンラインであれば、チャットに持ち込むこともできる。Andoid版のGoogle Voiceでは新たにメッセージが到着したらノーティフィケーションとして表示される。
Google Voice利用者の数人に聞いてみたところ、音声認識の精度は「用件が何かは分かる」程度だという。実際に音声を聞かないと肝心のところが分からないということはあっても、そもそもなぜ電話してきたのか、理由ぐらいは分かる、ということだ。
実際、私も図らずもGoogle Voiceの留守電を使うことになったが、それは十分に役立った。私はネット(AirBnB.com)で見つけたシリコンバレーの個人宅に泊まったのだが、最初にホストに連絡した時、相手の電話はGoogle Voiceの応答だったのだ。心の準備ができていないまま、慌てて用件をしゃべった私のドモリがちな英語ですら、それなりにキーワードを拾って用件が分かる程度にテキスト化されていることが分かる。
これまで有償だった付加価値サービスが軒並み無料
Google Voiceは最大4人までが同時に通話する会議電話もサポートしている。使い方は簡単で、単に通話中に3人目や4人目が電話をかけてきたときに、その人を通話に追加するかどうかを選ぶだけだ。これまでビジネス用であれば、特定の番号に電話をかけて、そこから特定の数字列を入力することで行ってきたようなこと、あるいはコンシューマ向けサービスであれば、電話会社各社が月額200円や300円の付加サービスとして提供していたようなサービスだ。
結局のところ、Google Voiceというのは月額300円程度のオプション料金で電話会社が提供していることが多い各種の機能を、PCやスマートフォンアプリと統合された使いやすい形で無償提供しているサービスと言えるだろう。個別に見てみると、今までに同等のサービスが存在したものも少なくない。ただ、Web、スマートフォン、電話回線、クラウドという異なるプラットフォームと、音声・テキストという2つの異なるコミュニケーション形態をすべて統合し、使いやすくしているところがポイントだと思う。
いろいろと便利な機能があるGoogle Voiceだが、既存サービスの廉価版という面でも多くの人に受け入れられる可能性がありそうだ。例えば米国では料金が高いSMSをタダで提供しているし、国際通話サービスも格安だ。例えば「アメリカ→日本」だと1分あたり0.02ドル、ケータイでも0.11ドルでかけられる。
電話網とWebを結ぶ「Twilio」
Google Voiceとともに私が衝撃を受けたのが、2007年創業のベンチャー、Twilioだ。
Twilioのアイデアをひと言でまとめると、これまで特殊なプロトコルや標準規格、専門の“ソリューション”を使って行ってきた音声サービスの開発が、RESTやXML、PHP、Ruby on Railsといった標準的なWeb関連技術で可能になるプラットフォーム、となる。Google Voiceのようなクラウドによる電話処理を実装するためのサービスという言い方もできるかもしれない。
Twilioプラットフォームは、従来の電話網と、ネット上のサーバの間に位置する。Twilioは開発者に対して電話番号を発行する。ここに着信する電話に対する処理は、サーバ上の置いたプログラムやXMLファイルに従って行うことができる。応答として扱う音声ファイルはMP3としてサーバ上に置いておけばいいし、テキストファイルを音声化して電話側に流すといったことも、簡単なXMLファイルだけで行える。
例えば複数人をつなげる“カンファレンスコール”は、次の動画にあるように、XMLを1つサーバに用意するだけで実現できるという。URLさえあれば、置き場所とするサーバは、Google App EngineやDropboxでも構わないという。
電話によるカスタマーサービスでよくあるプッシュ操作による音声ナビゲーションメニュー(IVRサービス:Interactive Voice Response)も、Twilioを間に挟むことでPHPで実現できる。Twilioプラットフォームが電話のプッシュ音を聞き取って、それをベースにHTTPで利用者のサーバを叩いてくれるのだ。
VoIP関連製品はこれまで、例えばSIP、H.323、IAX、MGCP、G.722などWeb開発者に馴染みのないプロトコルやコーデックを使っていたが、Twilioでは、これをHTTP、XML、REST、MP3などに置き換える。利用する言語はPHP、Python(Google App Engineでもよい)、Ruby on Rails、Java、C#など、サーバアプリケーション開発で使われている言語であれば、何でも使える。「Say」と書けばテキストを読み上げてくれて、「Gather」と書けば電話のプッシュ音を拾ってくれる。「Play」と書けばMP3音声を再生する。「Record」で音声録音、「Call」で電話をかける。
IETFが策定したSIPは、HTTPに似せて作られていて、同時期に登場したITU-TのH.323に比べればインターネット的なプロトコルだと思う。しかし、それにしてもSIP関連のソフトウェアやサービスを作ったことのある開発者はどのぐらいいるだろうか? Twilioが成功しつつあるのを見ていると、私にはもうSIPに勝ち目があるようには思えない。Twilioは、すでにベンチャーキャピタルからシリーズAで370万ドル、シリーズBで1200万ドルの資金を調達している。
TwilioのWebサイトには、このほかにもさまざまな応用例がリストされている。
例えば、特定の番号に電話をかけてボイスメッセージを預かり、それを音声認識でテキスト化するというPHPのデモコードや、登録された予定に先立って「明日の9時に予定があります」と音声で案内する確認電話をかけるRailsのデモコード、事前に用意した電話番号に電話をかけてプッシュ操作による投票を集めるPHPのデモコードなどが用意されている。Twilioでは音声の電話だけでなく、2010年2月になってからSMSも扱えるようになっている。
さらに、TwilioはWebブラウザ上でパーツをドラッグ&ドロップするだけで、着信処理の振り分けフローが定義できるオープンソースのWebアプリケーション、「OpenVBX」を2010年6月に発表している。OpenVBXを使えば、代表番号にかかってきた電話をチーム全員の端末に転送したり、全員不在の場合にサーバ上に留守電を取り、音声認識でテキスト化してWeb画面で確認するといったことまでできる。
以上、Google Voiceというどちらかといえばコンシューマ向けのサービスと、Twilioという小規模エンタープライズ向けサービスの2つを簡単に紹介してみた。親しい人との会話を除けば、私自身は音声サービスは過去の遺物とぐらいに思っていたが、案外そうでもないのかもしれない。そして、小規模ビジネスやジオロケーションサービスなどと結び付けば、音声サービスにはまだまだイノベーションの余地があるのではないかという気もするのだ。
もう1つ、国内の話を付け加えたい。先日、らくらく連絡網というRuby on Railsベースの、主にケータイ向けのサービスを運営する会社のエンジニアに取材をしたときに聞いたのだが、競合となるNTT系のサービスに負けているのはファックスの扱いだという。こうしたレガシーサービスを、Web APIとSDKでブリッジするTwilioのようなクラウドサービスには大きなビジネスチャンスがあるように思うのだが、いかがだろうか。
情報をお寄せください:
- プログラムの実行はどのようにして行われるのか、Linuxカーネルのコードから探る (2017/7/20)
C言語の「Hello World!」プログラムで使われる、「printf()」「main()」関数の中身を、デバッガによる解析と逆アセンブル、ソースコード読解などのさまざまな側面から探る連載。最終回は、Linuxカーネルの中では、プログラムの起動時にはどのような処理が行われているのかを探る - エンジニアならC言語プログラムの終わりに呼び出されるexit()の中身分かってますよね? (2017/7/13)
C言語の「Hello World!」プログラムで使われる、「printf()」「main()」関数の中身を、デバッガによる解析と逆アセンブル、ソースコード読解などのさまざまな側面から探る連載。今回は、プログラムの終わりに呼び出されるexit()の中身を探る - VBAにおけるFileDialog操作の基本&ドライブの空き容量、ファイルのサイズやタイムスタンプの取得方法 (2017/7/10)
指定したドライブの空き容量、ファイルのタイムスタンプや属性を取得する方法、FileDialog/エクスプローラー操作の基本を紹介します - さらば残業! 面倒くさいエクセル業務を楽にする「Excel VBA」とは (2017/7/6)
日頃発生する“面倒くさい業務”。簡単なプログラミングで効率化できる可能性がある。本稿では、業務で使うことが多い「Microsoft Excel」で使えるVBAを紹介する。※ショートカットキー、アクセスキーの解説あり
|
|
キャリアアップ
- - PR -
転職/派遣情報を探す
「ITmedia マーケティング」新着記事
ハッシュタグはオワコン? イーロン・マスク氏も「使うな」と投稿、その意図は……
ハッシュ記号(#)とキーワードを連結させることで投稿のトピックを明示する「ハッシュタ...
mixi2で「企業アカウント」を始める前に知っておきたい3つのポイント
2024年末に電撃デビューした国産SNS「mixi2」。企業の新たなコミュニケーションチャネル...
「サイト内検索」&「ライブチャット」売れ筋TOP5(2024年12月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。