データエンジニアリングは世界的な景気減速に直面 データエンジニアリングの現状をlakeFSがレポート:「2023年はオーケストレーションが成長を遂げる」
オープンソースのデータレイクバージョン管理システムを提供するlakeFSは、公式ブログで2023年のデータエンジニアリングの現状についてまとめたレポートを紹介した。
オープンソースのデータレイクバージョン管理システムを提供するlakeFSは2023年5月23日(現地時間)、公式ブログで2023年のデータエンジニアリング業界のカオスマップを発表した。以下でレポートの概要を紹介する。
データエンジニアリングは世界的な景気減速に直面
新興テクノロジーは、予算が縮小されると、もともと予算枠がないこともあって苦労する傾向にある。そんな中でも成功を収める企業は、景気が回復したときに急成長できる何かを持っていると予測できる。
オープンソースをベースとするテクノロジーはコミュニティーを成長させ、市場を教育し、製品を改善する機会がある。そして、景気が良くなったときに、有償で提供する製品が成長するための強固な基盤を整えることができる。
メタデータ管理
メタデータ管理関連のソフトウェアを手掛ける「Apache Hudi」「Apache Iceberg」「Delta Lake」の3つは、いずれも財団の下で、完全にオープンソースとして開発されている。商用企業がコアビジネス戦略の一環としてメンテナンスを行っている。
分散型コンピュート
列データを処理するデータ分析アプリケーションを開発するための、言語に依存しないソフトウェアフレームワークの「Apache Arrow」。これをベースにしたアナリティクスエンジンへの関心が高まっている。分散型コンピュートを用いた例として、「Arrow Datafusion」と「InfluxDB」が挙げられる。
AhanaはIBMに買収された。理由はおそらく同社のマネージド「PrestoDB」サービスにある。Ahanaは、「Ahana Cloud」で、分散型SQLデータレイククエリーエンジンをサービスとして提供している。
アナリティクスエンジン
アナリティクスエンジンは、新しいプレーヤーが急速に人気を集め、古いプレーヤーが成長を続けているため、2023年現在も成長しているとみられる。
SnowflakeはApache Icebergへの投資を深め、コミュニティーがカタログ用に構築した新しいREST APIを使用して、独自のカタログを作成する方向に向かっている。
2023年「DuckDB」の人気は爆発的に上昇し、使いやすさと優れた開発者体験が、たとえ深いレッドオーシャンの中にあっても差別化できる特徴であることを証明した。DuckDBはArrowプロトコルをサポートしているため、スタックに関係なく、非常にシンプルに使用することができる。
オーケストレーション
2023年にはオーケストレーションが成長を遂げると見られる。大手企業のAirflowが独占している分野だが、市場は成長を続けており、さまざまなパイプライン管理アプローチが至る所で登場している。
良い例はDockerコンテナを監視・管理する「Shipyard」だ。この領域でいかにノーコード・アプローチが有効かを示している。また、バッチとリアルタイムの両方のパイプライン・オーケストレーションを提供し、モニタリングも内蔵しているデータパイプラインツール「Mage」もある。
また、DevOpsの世界で定評のある、より伝統的なオーケストレーションツールが、データ実務者に利用されている。その一例が「Argo workFlows」である。
オブザーバビリティ
オブザーバビリティは、Monte Carloが確立し、現在もリードしている。しかし、昨年は、特定の機能に特化することで差別化を図る他社との競争が激化した。
Monte Carloがメタデータとデータの両方を監視するのに対し、Anomaloはエンタープライズプラットフォームのアプローチで、運用面よりもデータそのものにフォーカスしている。また、BigEyeやMonte Carloと同様に、ノーコードでアプローチするLightupも興味深いプロジェクトだ。
買収の面では、データパイプラインのオブザーバビリティにおけるパイオニアであるDataBandを挙げることができる。
データサイエンスとアナリティクス・ユーザビリティ
データサイエンスとアナリティクス・ユーザビリティは、ジェネレーティブAIの流れがインフラ技術に大きな影響を与えると思われるカテゴリーである。
ChatGPTの波に乗って、Activeloopは機械学習のデータセットを探索するための「ChatGPTインターフェース」をリリースした。この機能はデータサイエンティストとAPIに関する普遍的な課題や要件を満たしている。
フィーチャーストア
この1年で、フィーチャーストアのカテゴリーは狭まった。それに伴い、このカテゴリーのプレーヤーは、単にフィーチャーを保存するだけでなく、フィーチャー作成とライフサイクルのフルデータパイプラインに焦点を合わせている。
その結果、データストアを単にタスクのためのシンプルなデータベースとして見ることは理にかなっているといえるだろう。その一例である「Redis」は、オンラインフィーチャーストアとしての性能に優れている。Redisは、リアルタイムでの機械学習の特徴を保存するだけでなく、ジェネレーティブAIのユースケースや大規模言語モデル(LLM)にも対応している。
今後のデータエンジニアリングの見通し
パンデミック後の高度成長期には技術産業が栄えたが、今はどの分野も減速している。ジェネレーティブAIは例外かもしれないが、データ工学は減速しているといえるだろう。
2023年のデータエンジニアリングの状況を追跡したチャートでは、合併や買収が増え、新規参入する事業が減り、多くの事業が2023年に生き残るための十分なけん引力を得られないことが示されている。
結局のところ、現在の課題は、データエンジニアリング分野の成長をより緩やかに、しかしより計画的に進めることにつながると見られる。厳しい予算とベンチャーキャピタルからの資金提供の減少が、データの世界で本当に必要なものを見つけ出すのに役立つと考えられる。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
Google Cloud、BigQueryの非構造化データサポートや「Vertex AI Vision」を発表
Google CloudはGoogle Cloud Next '22で、「BigLake」のデータ形式サポートを強化し、「BigQuery」では非構造化データに対応、「Vertex AI」では動画を使った機械学習アプリケーション開発を効率化する「Vertex AI Vision」を発表した。【ITワード365】ブロックチェーン/DX/オープンデータ/データレイク/Arm/Windows 365/フェムテック
最新IT動向のキャッチアップはキーワードから。専門用語でけむに巻かれないIT人材になるための、毎日ひとことキーワード解説。実業務でも使えるか? 今アツいDocker運用管理製品/サービス15選まとめ
数多く台頭しているDockerの運用管理に関する製品/サービスの特長、使い方を徹底解説する特集。初回は、紹介するDocker運用管理製品/サービスの概要と比較表を提示する。