グーグルのAI技術、2018年9月最新情報 ― Google Cloud Next ’18 in Tokyo 基調講演レポート:イベントから学ぶ最新技術情報
2018年現在、グーグルはAI分野でどんな技術やサービスを提供しているのか? Google Cloud Next ’18 in Tokyoの基調講演から、AIに関する部分を書き起こした。
ご注意:本記事は、@IT/Deep Insider編集部(デジタルアドバンテージ社)が「deepinsider.jp」というサイトから、内容を改変することなく、そのまま「@IT」へと転載したものです。このため用字用語の統一ルールなどは@ITのそれとは一致しません。あらかじめご了承ください。
グーグル主催のイベント「Google Cloud Next ’18 in Tokyo」(全2日間の1日目)が9月19日に開催された。
その基調講演の一部では、特に注力していく最先端テクノロジの分野の一つとしてAI(人工知能)が取り上げられた。本稿ではその内容を紹介する。以下は発表内容を独自に書き起こしたものである。
基調講演のAI関連部分の書き起こし
グーグルのミッションは情報を整理することですが、Google Cloudのミッションは情報を強化することです。そしてGoogle Cloud AIのゴールは、AIをシンプル(Simple)で高速(Fast)で利用しやすい(Useful)ものにすることです。これを皆さまのビジネスの問題を解決する一助にしたいと考えています。
ビッグデータ解析のためのクラウド
ビッグデータを解析するためにはまず、データの複雑性を無くす必要があります。それにはいくつかの要件があります。
第一に、クラウドネイティブなデータウェアハウスを作ることです。これはつまり、数秒でデータをクエリできるようにし、何百万というストリーミングデータをリアルタイムで取り込めるようにすることです。次に、例えばApache Hadoop、Apache Sparkとったミドルウェア上でデータを処理して、そこから価値を得なければなりません。最後に、データを可視化して、Google Cloudとサードパーティのツールの上で、きちんとデータとしてのインサイトを生ませなければなりません。これはつまり、「データ分析や機械学習といったものを使いやすいものにする」ということです。
その中心にあるのがBigQueryです。これは、グーグルが完全に管理しているエンタープライズ・データ・ウェアハウスです。BigQueryは非常にユニークで、信じられないほど速く、膨大な量のデータセットを処理できます。
お客さまの中には、BigQueryの中にペタバイト(PB)級のデータ(1PB=HDのTV動画を13年分格納できる量)を入れて、5PB以上のクエリを行っている方もいます。
100のお客さまが1兆行以上のクエリを1回で行っています。また、28兆行のクエリを行った方もいらっしゃいます。
本当に膨大な量のデータですが、ではどうやったら、このデータからインテリジェンスが生み出せるのか? というと、それが機械学習となるわけです。
BigQuery ML
だからこそ、グーグルはBigQuery MLを導入しました。これにより、データ分析者やデータサイエンティストが非常にシンプルなSQLライクな構文を使うことによって、機械学習モデルを作れます(以下の図がその利用の流れです)。
機械学習をSQLライクなBigQuery MLにした理由は以下の3つです。
- シンプル: SQLは多くの人が理解し、使い慣れた言語であること
- データベース内蔵: データベースの中からアクセスできること
- 高速: 機械学習のモデルを30秒以内に作り上げて、それをビジネスの中ですぐに使えること
すでに以下のような顧客が使っています。
このようにデータ分析においてBigQuery MLは、あらゆる分野(金融、リテール、ゲーミング、メディア&エンターテイメントなど)で驚くような勢いがあります。例えばTwitterは、最も大きなHadoopクラスターを持っており、300PBのストレージを使っています。クラウドネイティブな会社から多くのエンタープライズ企業まで、わたしたちのツールが大きな差を生み出しています。
ディープラーニングへの取り組み
ところで、皆さんのデータはどうでしょうか?
実は、データの80%は非構造化データということが分かっています。例えば普通のドキュメント、写真、eメール、商品の評価や動画などは非構造化データです。
ここ5年間の深層学習(ディープラーニング)の発展によって、こういったものからインサイトを引き出せるようになりました。しかしディープラーニングは難しいです。ディープラーニングのモデルを本当の意味で作れる人材は、恐らく世界の中でも数万人程度だと思います。また、データサイエンティストは200万人ぐらいしかいません。デベロッパーに関しても2100万人ぐらいしか世界にはいません。
では、この状況を変えるにはどうすればいいでしょうか? グーグルは3つの分野で努力をしています。
(1)Google Cloud AI: GCPプラットフォーム
グーグルは、ここまでに説明したものも含めて、クラウドのプラットフォームを提供しています。皆さんがモデルを作って、走らせ、スケールさせられるプラットフォームです。
(2)Google Cloud AI: AIツール
またグーグルは、ビルディングブロックとしてAIツール(=クラウドのAPIサービス)を提供しています。これは、グーグルがこれまでに学習させたAIモデルです。
(3)Google Cloud AI: AIソリューション
さらにグーグルは、AIのソリューションも提供しています。皆さんがビジネスで抱えている問題を解決するためのものです。
それぞれについて詳しく説明していきます。
(1)Google Cloud AI: GCPプラットフォーム
AIを使ううえでのコンピューティングに関する障壁を下げようとしています。
TPU
具体的には、クラウド上で提供するTPU(Tensor processing unit、GPUのようなグーグル独自のAI用演算処理装置)を使うことによって、機械学習の作業負荷を軽減できます。
例えばebayは、TPUを使うことによって、画像検索のトレーニング時間を100分の1にできました。つまり何カ月かかる作業が数日に短縮できたわけです。その結果、15%ほど精度を上げることにもつながりました。
最近(2018年5月)、第3世代のTPUを発表しました。これを使うことによって、さらにスピードや性能が上がっています。
Cloud Machine Learning Engine
データサイエンティストにとって、フレキシビリティが重要です。パフォーマンスも重要ですがロックインされても困ると考えています。そこでグーグルは、Cloud Machine Learning Engine(Cloud ML Engine)を発表しました。
Cloud ML Engineを使えば、皆さん方のAIモデルをGoogle Cloud上で使えるだけでなく、スケールも簡単です。また、TensorFlowやKeras、scikit-learnといった各種AIライブラリが使えます。
Kubeflow
さらにML(機械学習)に関しては、「オンプレミスとクラウドの両方にあるデータをシームレスに使えない」という問題が指摘されていました。これを解決するのがKubeflow(キューブフロー)です。
Kubeflowは、Kubernetes(=コンテナ化したアプリケーションのスケーリングやデプロイなどの運用自動化を行うためのオープンソースのプラットフォーム)の上に構築されたソフトウェアです。Kubeflowを使うと、Kubernetes上で機械学習スタックをシンプルかつ、ポータルブルで、スケーラブルに使えます。つまり、機械学習をオンプレミスとクラウドの間でシームレスに動かせるというわけです。
(2)Google Cloud AI: AIツール
AIツールに関しては、次のようなビルディングブロックを提供しています。
ビルディングブロック(AIのAPIサービス)
具体的には、Vision(コンピュータービジョン)Natural Language(自然言語)、Text-to-Speech(スピーチ)、Translation(翻訳)、Video Intelligence(ビデオインテリジェンス)などを提供しています。これらのAPIサービスは、グーグルの既存製品からの良いとこ取りです。
これらのAPIを使えば、たった数行をコーディングするだけでAIが使えます。
事例として例えばSansanでは次のようにCoud Vision APIが活用されています。
また、丸紅情報システムのmsys Omnis(エムシス・オムニス)では次のようにCoud Translation APIやCloud Text-to-Speech APIが活用されています。
Cloud AutoML(カスタムのAIサービス)
Copyright© Digital Advantage Corp. All Rights Reserved.