AWS上にデータレイクを迅速に構築できる「AWS Lake Formation」は、どう設計されているか：AWS re:Invent 2018発表まとめ（2）

AWS re:Invent 2018でAmazon Web Servicesが発表したデータレイク構築サービス「AWS Lake Formation」について、責任者に聞いた。

» 2018年12月03日 05時00分公開

　AWS re:Invent 2018の基調講演で、Amazon Web Services（AWS） CEOのアンディ・ジャシー氏は、「データレイクが今年（2018年）の流行だ。誰もがデータレイクを構築している」と語った。正確にいえば、数年前からデータレイクはブームだ。「だが2018年になって、企業がオンプレミスのデータをAWSに集め、データレイクを作る動きが活発化している」と、AWSのビッグデータ／データレイク／ブロックチェーン担当ゼネラルマネージャー、ラウル・パシャク（Rahul Pathak）氏は話す。だから今、データレイクのサービスを発表したのだという。

AWSのビッグデータ／データレイク／ブロックチェーン担当ゼネラルマネージャー、ラウル・パシャク（Rahul Pathak）氏

　データレイクの構築は、「あらゆるデータを1カ所にまとめる」だけでは済まない。例えばそれぞれのデータのアクセス権を設定し、確実に運用する作業はそれだけで複雑だ。どこでやったとしても時間がかかるが、AWSでデータレイクを作るにも、これまで長い時間を要してきたのだという。

　新データレイク構築サービス「AWS Lake Formation」は、AWSのデータサービスおよびオンプレミスのリレーショナルデータベースにある各種形式のデータを自動的に認識し、データカタログを構築してデータを加工した後、Amazon S3にまとめて保存するサービス。重複排除の機能も備えている。

　機能はモジュール化されていて、例えば重複排除だけを使うこともできる。「とはいえ、このサービスの最大の特徴は、安全なデータレイクの構築にこれまで数カ月かかっていたものを、数日で行えるようになることだ」（パシャク氏、以下同）

　データの集約先としてS3を使う第1の理由は、S3がオブジェクトストレージであり、多様なデータを、元のデータ形式を保ったまま保存できるということにある。

　「データベーステーブルなどの構造化データ、JSONやイベントなどの準構造化データ、さらには画像、ビデオ、音声などの非構造化データも保存できる。非構造化データにAWSの機械学習サービスを適用して意味を引き出し、これを分析に用いることも可能だ」

　もう1つの理由は、同一データに対し、複数のサービスが互いに干渉することなく、同時にクエリができることにあるという。

　「例えばAmazon EMRでApache Sparkを使った分析を行う一方、同じデータにAmazon Athenaで直接SQLクエリができる。さらに同じデータを使い、Amazon Redshiftによるデータウェアハウジングもできる。データをS3に格納することで、これらのサービスに対し、『唯一の真実』を提供できる。これにより、データ関連業務を機動的なものにできる。社内のさまざまなチームがそれぞれ好きなツールを使って、データを複製するなどせずに、それぞれのペースで業務を進められるからだ」

　他にも、デフォルトでのアベイラビリティゾーン間複製（リージョン間複製も可能）によりデータが保護されることや、暗号化されることが、S3に基づくデータレイク構築のメリットだという。

データカタログで一度アクセス管理を行えばいい

　AWSがLake Formationで強調しているのは、「安全な」データレイクの構築が迅速にできることだ。リレーショナルデータでいえば表、行、列の単位でアクセスポリシーを設定し、その後のデータ活用プロセス全てにわたってこれを適用し続けられる。

　「Lake Formationにおける重要なイノベーションの1つはデータカタログだ。特定データへのアクセスポリシーは、データカタログで一度設定するだけでいい。するとこのポリシーは、データに付き添い、そのライフサイクルを通じて生き続ける。そして、AthenaやEMR、Redshiftなど、全ての分析サービスに適用されることになる。Lake Formationが生まれる前にも、S3を使ったデータレイク構築は行われてきた。だが、顧客はS3、Athena、EMR、Redshiftに、データ単位で別個にアクセスポリシーを設定しなければならなかった。また、S3ではデータをオブジェクトとしてしか扱えない。一方顧客はデータのアクセス管理を表や列、行で考える。そこで両者間のマッピングを行い、これをメンテナンスしていかざるを得なかった。Lake Formationにより、アクセス権については一度考えるだけで済むようになった。データアクセスに関するマッピング情報がデータカタログにまとまっていることで、監査も容易になる」

マシンラーニングの役割が、重要になってくる

　Lake Formationではデータの取り込みやデータクレンジングのプロセスに、機械学習を活用しているという。

　「第1に、スキーマの推論が挙げられる。データをクロールし、各データの構造、スキーマを把握する。そこで機械学習に基づく推論で、『これは完全に新しい表なのか、既存の表の新たなパーティションなのか』といったことを理解できる。第2に、重複排除での利用がある」

　Lake Formationでは、さまざまなデータセットを見て、一致度が高いデータセット群の候補を顧客に示す。顧客はこれを見て、適切なマッチングなのかどうかを判断する。このプロセスを繰り返し、教師あり学習でモデルを訓練する。そして構築したデータを基に、重複排除を実施する。

　「今後は、データ間の相関関係に関する自動検知や、個人情報の自動検出による保護といった機能を提供していきたい。個人情報に関しては、顧客の意向を受けて、データを検出する時点で『プライベート情報』というタグを付けられるようにしたい。データは今後、5年ごとに10倍増加するとされている。従ってそのうち、情報へのタグ付けや分類は、人手で行うことが労力的に難しくなってくるだろう。そこで、ますます自動化を進める必要がある」

（取材協力：Amazon Web Services）