Microsoftは、「Azure Data Lake Storage Gen2」および「Azure Data Explorer」の正式リリースと、「Azure Data Factory Mapping Data Flow」のプレビュー版を発表し、Azureのデータサービスを拡充した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Microsoftは2019年2月7日(米国時間)、「Azure Data Lake Storage Gen2(ADLS)」および「Azure Data Explorer(ADX)」の正式リリースと、「Azure Data Factory Mapping Data Flow」のプレビュー版を発表した。
ADLSはビッグデータ分析用のデータレイク。ADXは高速データ探索サービス。Azure Data Factory Mapping Data Flowは、クラウドベースのデータ統合サービス「Azure Data Factory(ADF)」におけるデータ変換プロセスを視覚的に設計、構築、管理できる機能だ。それぞれの概要は以下の通り。
ADLSは、優れたスケーラビリティや、費用対効果、セキュリティモデル、「Azure Blob Storage」の豊富な機能、アナリティクス用に構築され「Hadoop Distributed File System(HDFS)」と互換性がある高パフォーマンスのファイルシステムといった特徴を備えている。
ADLSでは、Apacheエコシステムとの互換性の確保に重点が置かれており、Microsoftは「Azure Blob File System(ABFS)」ドライバを開発することでこれを実現した。ABFSドライバは「Apache Hadoop」「Apache Spark」に正式に含まれており、多くの商用ディストリビューションに組み込まれている。
またADLSでは、ファイルシステムのセマンティクスがサーバ側で実装されている。このアプローチにより、複雑なクライアント側ドライバを不要にするとともに、高忠実度のファイルシステムのトランザクションを可能にしている。
Microsoftはアナリティクスパフォーマンスの向上に向けて、アトミックなファイルおよびフォルダ操作をサポートする「階層型名前空間(HNS)」も実装した。これにより、BLOBストレージ上でのビッグデータ処理に伴うオーバーヘッドが軽減されている。これは、必要なコンピュータの操作を減少し、ジョブ実行の高速化とコスト削減につながる。
こうしたABFSドライバとHNSは、ADLSのパフォーマンスを大幅に高め、スケーリングとパフォーマンスのボトルネックを解消している。Azure Blob Storageと同様の低コストで、こうした優れたパフォーマンスの恩恵が受けられるようになっている。
ADLSは、Azure Blob Storageと同じく以下の強力なデータセキュリティ機能を提供する。
さらに、ADLSのファイルシステムは、POSIX ACL(アクセス制御コントロール)をサポートする。このアプローチにより、きめ細かなアクセス制御によるセキュリティ保護が可能になっている。
ADLSは、「Azure Databricks」「Azure HDInsight」、ADF、「Azure SQL Data Warehouse」「Power BI」と緊密に統合されており、組織のあらゆるレベルで強力なビジネス洞察を提供するエンドツーエンドのアナリティクスワークフローを実現する。また、ClouderaやHortonworksをはじめ、ビッグデータアナリティクスを手掛ける世界のISV(独立系ソフトウェアベンダー)やシステムインテグレーターにサポートされている。
ADXは、大量のストリーミングデータのリアルタイム分析が可能なフルマネージドの高速なデータ探索サービスだ。データやメタデータを変更することなく、1秒未満で10億件のレコードのクエリを実行できるという。ADLS、Azure SQL Data Warehouse、Power BIと接続するためのネイティブコネクターを備えており、直感的なクエリ言語が用意されている。
ADXはスピードとシンプルさを追求して設計されており、「Engine」サービスと「Data Management(DM)」サービスが連携して動作するアーキテクチャが採用されている。これらのサービスはAzureでコンピュートノード(仮想マシン)のクラスタとしてデプロイされる。
DMサービスはさまざまな生データを取り込み、必要に応じて障害、バックプレッシャー、データグルーミングタスクを管理する。また、独自の自動インデックス作成および圧縮方法により、高速なデータ取り込みを実現している。
Engineサービスは、取り込まれた生データの処理とユーザークエリへの対応を担う。自動スケーリングとデータシャーディングを組み合わせて、優れたスピードとスケーラビリティを実現している。またシンタックスの読み取り、作成、自動化が容易に行えるように設計された読み取り専用のクエリ言語が用意されている。
ADXは、ISVやシステムインテグレーターなどのパートナーにサポートされており、そのエコシステムは拡大している。
Azure Data Factory Mapping Data Flowでは、ADFおけるデータ変換プロセスを、Apache Sparkを習得したり、その分散インフラを深く理解したりすることなく、視覚的に設計、構築、管理できる。
Azure Data Factory Mapping Data Flowでは、ETL(抽出、変換、ロード)ジョブとデータ統合プロセスを容易に実行、トリガー、監視できるように、機能豊富な表現言語と対話型デバッガが組み合わされている。
ADFは、幅広いISVやシステムインテグレーターにサポートされている。
Copyright © ITmedia, Inc. All Rights Reserved.
Server & Storage 記事ランキング