Linux Foundationはデータレイク上にレイクハウスアーキテクチャを構築できるオープンソースのストレージフレームワークの最新版「Delta Lake 3.0」の一般提供を開始した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Linux Foundationは2023年10月18日(米国時間)、データレイク上にレイクハウスアーキテクチャを構築できるオープンソースのストレージフレームワークの最新版「Delta Lake 3.0」の提供を開始したと発表した。
レイクハウスは、データウェアハウスの主要な課題(データの陳腐化、信頼性、総所有コスト、データのロックイン、限られたユースケースのサポートなど)を解決するのに役立つ。Delta Lakeでは「Apache Spark」「PrestoDB」「Apache Flink」「Trino」「Apache Hive」などのコンピュートエンジンとScala、Java、Rust、Ruby、PythonのAPIを用いて、データレイク上にレイクハウスアーキテクチャを構築できる。
レイクハウスではACIDトランザクション、スケーラブルなメタデータ処理、ストリーミングとバッチデータ処理の統合、スキーマ強制、タイムトラベルおよびデータセットのマージ、更新、削除などの機能を利用できる。1つのフォーマットでETL(抽出、変換、ロード)、データウェアハウス、機械学習(ML)をレイクハウスに統合可能だ。
Delta Lakeは、「Amazon S3」(Amazon Simple Storage Service)、「ADLS」(Azure Data Lake Storage)、「Google Cloud Storage」などの既存データレイクに対応している。
Delta Lake 3.0の主な特徴は、Delta Universal Format(Delta UniForm)、Delta KernelおよびMERGEとDELETEの大幅な高速化だ。
企業はシームレスなデータレイクハウスの構築を目指す中で、どのストレージフォーマットを標準化するかで頭を悩ませてきた。Delta UniFormは、アプリケーションが要求するフォーマットでデータを読み込むことを容易にし、高い互換性と幅広いエコシステムを保証する。「Apache Hudi」「Apache Iceberg」などの全てのテーブルストレージフォーマットが、Parquetデータファイルとメタデータレイヤーで構成されていることを利用して実現されている。
Delta Kernelプロジェクトは、Deltaテーブルの読み込みと書き込みが可能なDeltaコネクターを、Deltaプロトコルの詳細を理解しなくても構築できるようにするJavaライブラリのセットだ。簡素化されたAPIを提供し、Deltaコネクターの構築プロセスの効率化を支援する。
MERGEは、多くのケースで挿入のみのコードパスを使用できるデータスキッピングをより活用できるようになり、動作も全体的に改善された。これにより、さまざまなシナリオでパフォーマンスが最大2倍向上した。DELETE操作も2倍以上高速化した。DELETE操作の高速化は、データのパージや更新時の待ち時間短縮につながり、よりアジャイル(俊敏)なデータの管理と処理を可能にする。
Copyright © ITmedia, Inc. All Rights Reserved.