OSSのストレージフレームワーク「Delta Lake 3.0」公開 DWHの課題を解決相互運用性、効率性、パフォーマンスが向上

Linux Foundationはデータレイク上にレイクハウスアーキテクチャを構築できるオープンソースのストレージフレームワークの最新版「Delta Lake 3.0」の一般提供を開始した。

» 2023年10月24日 08時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 Linux Foundationは2023年10月18日(米国時間)、データレイク上にレイクハウスアーキテクチャを構築できるオープンソースのストレージフレームワークの最新版「Delta Lake 3.0」の提供を開始したと発表した。

 レイクハウスは、データウェアハウスの主要な課題(データの陳腐化、信頼性、総所有コスト、データのロックイン、限られたユースケースのサポートなど)を解決するのに役立つ。Delta Lakeでは「Apache Spark」「PrestoDB」「Apache Flink」「Trino」「Apache Hive」などのコンピュートエンジンとScala、Java、Rust、Ruby、PythonのAPIを用いて、データレイク上にレイクハウスアーキテクチャを構築できる。

 レイクハウスではACIDトランザクション、スケーラブルなメタデータ処理、ストリーミングとバッチデータ処理の統合、スキーマ強制、タイムトラベルおよびデータセットのマージ、更新、削除などの機能を利用できる。1つのフォーマットでETL(抽出、変換、ロード)、データウェアハウス、機械学習(ML)をレイクハウスに統合可能だ。

 Delta Lakeは、「Amazon S3」(Amazon Simple Storage Service)、「ADLS」(Azure Data Lake Storage)、「Google Cloud Storage」などの既存データレイクに対応している。

 Delta Lake 3.0の主な特徴は、Delta Universal Format(Delta UniForm)、Delta KernelおよびMERGEとDELETEの大幅な高速化だ。

Delta UniForm

 企業はシームレスなデータレイクハウスの構築を目指す中で、どのストレージフォーマットを標準化するかで頭を悩ませてきた。Delta UniFormは、アプリケーションが要求するフォーマットでデータを読み込むことを容易にし、高い互換性と幅広いエコシステムを保証する。「Apache Hudi」「Apache Iceberg」などの全てのテーブルストレージフォーマットが、Parquetデータファイルとメタデータレイヤーで構成されていることを利用して実現されている。

Delta Kernel

 Delta Kernelプロジェクトは、Deltaテーブルの読み込みと書き込みが可能なDeltaコネクターを、Deltaプロトコルの詳細を理解しなくても構築できるようにするJavaライブラリのセットだ。簡素化されたAPIを提供し、Deltaコネクターの構築プロセスの効率化を支援する。

MERGEとDELETEの大幅な高速化

 MERGEは、多くのケースで挿入のみのコードパスを使用できるデータスキッピングをより活用できるようになり、動作も全体的に改善された。これにより、さまざまなシナリオでパフォーマンスが最大2倍向上した。DELETE操作も2倍以上高速化した。DELETE操作の高速化は、データのパージや更新時の待ち時間短縮につながり、よりアジャイル(俊敏)なデータの管理と処理を可能にする。

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。