見えてきたAWSのAI戦略、Amazon.comのノウハウを開発者に解放：AWS re:Invent 2016

米Amazon Web Services（AWS）は2016年⒒月30日（米国時間）、コグニティブコンピューティング／ディープラーニングを活用した3つの新サービスを発表した。提供中のAmazon Machine Learningと合わせ、同社のAI関連サービスの姿が見えてきた、

[三木泉，＠IT] PC用表示関連情報

LINE

Hatena

　米Amazon Web Services（AWS）は2016年11月30日（米国時間）、コグニティブコンピューティング／ディープラーニングを活用した新サービス、「Amazon Lex」「Amazon Rekognition」「Amazon Polly」を発表した。提供開始済みの機械学習サービス「Amazon Machine Learning」と合わせ、「Amazon AI」という名称で同社のAIサービスを推進する。また、同社はディープラーニングフレームワークとして「MXNet」を優先的に採用し、これを推進していくことを明らかにしている。

Amazon AIを含め多数の発表を行ったAWS CEOのアンディ・ジャシー（Andy Jassy）氏

　Amazon.com CTOのワーナー・ヴォーゲルズ（Werner Vogels）氏は、ブログで次のように記述している。

　「（機械学習やAIは創成期にあるが、）Amazon AIは日常的なアプリケーションに、とてつもない価値と魔法的な体験を提供できる。あらゆる種類の開発者が、アプリケーションにインテリジェンスを組み込める。データサイエンティストはP2インスタンス、Amazon EMR Spark MLLib、ディープラーニングAMI、MXNet、Amazon MLを使って、機械学習モデルを構築できる。アプリケーション開発者は、（以下の新たな）3つのAmazon AIサービスにより、人間や私たちの周りの世界に耳を傾け、見て、話す新世代のアプリケーションを構築できる」

対話型アプリを構築できるAmazon Lex

　「Amazon Lex」は、米Amazon.comが円筒型スピーカーの「Amazon Echoシリーズ」や「Amazon Fire TV」などに搭載している会話型ユーザーインターフェース（UI）であるAmazon AlexaのAlexa Skillsに適用されている、自動音声認識（ASR）、自然言語認識（NLR）、そして会話型のプログラミングコンセプトを活用したサービス。

　ソーシャルチャットをはじめとするモバイルアプリやWebアプリ上で、顧客と音声またはテキストでやり取りし、自動で問い合わせに答える、あるいは注文を取るなどのプロセスを構築できる。Lexでは、複数ステップで構成される会話型のインターフェースが作れることがポイントとなっている。

　AWS Re:Invent 2016における基調講演では、下記のやり取りでフライト予約を完結する例が紹介された。

ユーザー：Book a flight to London（ロンドン行きのフライトを予約したい）

自動応答：When do you want to travel?（いつにしたいですか？）

ユーザー：Friday afternoon.（金曜の午後）

自動応答：There is a flight leaving at 5 p.m.for 500 dollars. Book it?（午後5時出発で500ドルのフライトがあります。予約しましょうか？）

ユーザー：Book it（予約して）

自動応答：Okay, it's booked.（はい、予約しました）

　この例では、「ロンドン」という言葉から目的地を「ヒースロー空港」と認識、出発空港は顧客情報から自動的に取得、「金曜午後」という言葉から日時を判断、フライトの提案では予約システムからフライトの情報を引き出している。

　Lexでは、下図のインターフェースで、ユーザーがやりたいこと（Intent）、その変数（Slot）、Intent実現のためのユーザーの発言（入力）文のサンプル（Utterance）、ユーザーに変数の提供をうながすための発言文（Prompt）などを指定して、現在のAlexa用のアプリケーションであるAlexa Skillと基本的に同一のコンセプトで、アプリケーションの骨格を作れる。マシンラーニングの知識は不要。

Amazon Lexでは、こうした画面で骨組みを作れる

　Amazon Lexは、Intentを受け付けるプロセスにAWS Lambdaを使い、ユーザー認証にAmazon Cognito、テキストの音声変換では後述の「Amazon Polly」を使う。エンタープライズアプリケーションとのコネクタも利用できる。

　この新サービスは、現在米国の一部リージョンで限定プレビューとして提供。対応言語は米語のみ。料金体系は音声リクエストあるいはテキストリクエストの数に基づく完全従量課金となっており、導入時に一括して支払いが発生することはない。

テキスト音声変換サービスAmazon Polly

　Amazon Pollyは、日本語を含む24言語に対応したテキスト音声変換サービス。米国およびアイルランドリージョンで正式提供を開始した。現時点では47種の音声を提供している。課金は文字数あるいは時間単位。

　このサービスは、コンソールへの文章入力あるいはAPIでの呼び出しで利用できる。「live（リヴ）と「live（ライヴ）」の違いなど、文章から適切な発音を判断するインテリジェンスを備えているという。

画像認識のAmazon Rekognition

　Amazon Rekognitionは、Amazon.comのPrime Photosにおける技術とノウハウを生かしたディープラーニングに基づく画像認識／解析サービス。次のような機能を持つ。

画像内のオブジェクトを検知し、分類する。「アウトドア」「夕暮れ」といったシーンも併せて検知する。
画像内の顔を認識し、同時に表情や、目が開いているかなども検知する。
複数の画像における顔を比較し、同一人物であるかどうかを判断するための類似度スコアをほぼリアルタイムで返す。
多数の画像の中から、参照顔画像に類似した顔画像を抽出する。

画像内のオブジェクトを認識して分類、信頼度スコアとともに示す

　Amazon Rekognitionは米国の一部リージョンおよびアイルランドで正式提供開始。課金は解析する画像の数、および保存する顔認識処理データの数に基づく。

　AWSでは、Amazon AIの全般的な特徴として、従量課金であり初期投資が必要ないこと、低コストであること、AWSの他のさまざまなサービスと連携させられること、用途や利用者を限定することなく、あらゆるアプリケーションに適用できる実用的なサービスであることを強調している。

見えてきたAWSのAI戦略、Amazon.comのノウハウを開発者に解放：AWS re:Invent 2016

対話型アプリを構築できるAmazon Lex

テキスト音声変換サービスAmazon Polly

画像認識のAmazon Rekognition

Cloud Native Central 記事ランキング