データパイプラインプラットフォームのAirbyteは、データエコシステムに関する調査レポート「The State of Data 2023」を公開した。886人の回答を集計、分析したものだ。データエンジニアリング分野で注目されている技術が分かる。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
データパイプラインプラットフォームのAirbyteは2023年5月25日(米国時間)、データエコシステムに関する調査レポート「The State of Data 2023」を公開した。北米、欧州、アジアを中心に886人の参加者から回答を得た。回答者の属性は、データエンジニアまたはソフトウェアエンジニアが中心(50%)だ。
同調査では、データエンジニアリング分野で注目されている技術を調査しており、各領域で注目されている技術や導入動向を明らかにした。
データ変換に関して最もポジティブな反応が得られているのはdbtだ。実際に最も使用されている技術はPandasだった。エンタープライズでは特に顕著で、SparkとPandasの両方がdbtよりも多く使われている。しかし、エンタープライズで最も「試してみたい」技術としてはdbtが挙がった。
DWH(データウェアハウス)ではSnowflakeとBigQueryが2大トップで、Databricksにも好意的な意見が多い。一方、劣勢なのはAzure Synapseだ。DatabricksはBigQueryとSnowflakeと同様の使用率と好意的な意見がある(1位はSnowflakeで、Databricksが2位)。Amazon Redshiftも存在感があるものの、「試してみたい」と回答した割合は最も少なかった。
特にエンタープライズでは、大勢がセルフホスティングのApache Airflowを使用している。Dagsterは「試してみたい」と回答した数が最も多かった。Airbyteは、企業向けのセルフホストソリューションが好まれる証拠だと考察している。
巨人であるLookerとTableauは依然として群を抜いているが、Tableauから新しいソリューションへの移行も著しいとした。
Great ExpectationsとMonte Carloが市場をリードしている。他のツールは、ほとんどが知られておらず、検討されていないものもある。
HightouchとCensusが拮抗しているが、市場の大部分はまだ未開拓だ。「分からない」の多さが示すように、この技術の市場投入はまだ早い。
DataHubとAtlanがリードしている状況だ。
同調査では、コミュニティーやコミュニティーが活用するリソースも調査した。最もフォローされているニュースレターは「Towards Data Science」で、最もフォローされているポッドキャストは「Data Engineering Podcast」だった。「Seattle Data Guy」が最もフォローされているYouTubeチャンネルだった。
The State of Data 2023は、所在地や企業規模、経験年数に基づくフィルタリングが可能で、より多くの視点から洞察を得ることができる。2024年以降の調査では他のコミュニティーが持つデータも反映する予定だ。
Copyright © ITmedia, Inc. All Rights Reserved.