“Hadoopエンジニアは年収3000万円”――「DW 2.0」とDBエンジニアのキャリア、米国エンジニア事情:Database Expertイベントリポート(1/3 ページ)
“データウエアハウスの父”ビル・インモン氏が日本のデータベースエンジニアを前に講演、データの性質が変わってきたいま、データウエアハウスの次の形態としてインモン氏が示したのは「DW 2.0」。その根幹を支えるテクノロジを扱うスキルを持つエンジニアが、いま北米で“引く手あまた”だという話も。
2015年6月10〜12日、データベースエンジニア向けイベント「db tech showcase」(インサイトテクノロジー主催)が開催された。初日の基調講演では“データウエアハウス(DWH)の父”と呼ばれるビル・インモン(William H. Inmon)氏が登壇した。
インモン氏は、1990年代に「企業の意思決定のためのデータウエア」という概念を初めて提唱したことで、“データウエアハウスの父”と呼ばれる。
インモン氏の来日は十数年ぶりということもあり、会場は立ち見が出るほどの盛況。通訳なしで全編英語のスピーチだったが、丁寧な語り口に時おり交じるユーモアが会場の笑いを誘い、英語での活発なQ&Aセッションも行われるなど、熱気と一体感を感じるものであった。講演では、DWH本来の役割から、今後求められるDWHテクノロジ“DW 2.0”の詳細、自身が持つ異色のキャリア、米国データベースエンジニアのキャリア事情までが語られた。
データウエアハウスが必要とされてきた歴史的経緯、課題
講演冒頭、データアーキテクチャの進化とデータウエアハウスの特徴が平易に解説された。
まず「データアーキテクチャ」について、「『クモの巣状のWebシステム(Spider Web System)』がアプリケーションとデータをエンドユーザーのPCに保存する、とてもシンプルな構造が始まりだった」とインモン氏は振り返った。
後に、人事や会計アプリケーションのようなシンプルなトランザクション(取引)システムが作られるが、取引データはあちこちに散在しているため、IT部門はデータを各所から引き出して集約する必要があった。例えば、金融機関では、顧客の預金残高、入出金額、取引日時など複数に分散した取引データをオンライントランザクションシステムとしてまとめる必要がある。
「Webシステムの最大の問題は、金額などの“同じ取引データ”が複数の場所にばらばらに保存されていることです。このため、企業は、意思決定のためにデータを使うことがとても難しくなりました。そこで必要になったのが、オンライントランザクションシステムとは別の“データを統合するためのデータウエアハウス”です」(インモン氏)
インモン氏の定義では、データウエアハウスは「間違いのないデータのためのシングルソース(a single source of truth for data: SSOT)」であり、「(1)サブジェクト指向(Subject Oriented)」「(2)統合されていること(Integrated)」「(3)削除・更新されないこと(Nonvolatile)」「(4)時系列を持つこと(Time Varient)」という四つの特徴を持った“組織の意思決定のためのデータの集合体(collection of data for management's decisions)”だ。
DWH構築のための「四つの基本事項」
これらは、広く知られた定義だが、あらためて確認しておこう。
一つ目の「サブジェクト(主題)志向」というのは、データを“プロセス別(目的別)”ではなく、主題別に整理することを意味する。例えば、顧客名や商品名などをまとめて「販売データ」とするのでなく、「顧客」「商品」「店舗」「注文」「出荷」など、それぞれの主題をばらばらにして管理する、と考えると分かりやすいだろう。
二つ目の「統合されていること」とは、データを同じ項目にまとめることだ。例えば、性別には、「Male/Female」「Man/Woman」「M/F」「Y/X」「1/0」といった表記が考えられるが、これらを一つにまとめて管理する。「どう統合するかは、今日の企業システムでもしばしば問題になる点」(インモン氏)だという。
三つ目の「削除・更新されないこと」とは、トランザクションシステムが基本的にデータを上書きして処理するのに対して、データを消さずに履歴が分かるように追記していくことを指している。例えば、金融システムでの残高は、入出金のたびに更新するのではなく、過去の残高を残したまま新しい履歴として記録する。
四つ目の「時系列を持つこと」とは、データを削除・更新せずに蓄積していくことを意味する。一つの出来事について、一貫した視点で履歴を見ることができるようになる、ということだ。3カ月、5年といった一定の単位で蓄積していくのが普通だ。
インモン氏は、これら四つの特徴を持つデータウエアハウスの課題として、設計/構築/利用/運用の難しさを挙げる。そして、それらを解決するために、データの蓄積のためのETLツールや、業務ごとに分析を容易にするためのデータマートが登場した。また、データの格納方法についても言及し、現在のデータウエアハウス運用において、よく利用するデータはデータウエアハウスの中でアクセス性が高い場所へ、頻繁に使わないデータ(Dormant data)は保存性が高い場所へそれぞれ格納するといった工夫が行われていることを説明した。
Copyright © ITmedia, Inc. All Rights Reserved.