連載
BigQueryにおけるデータ整合性チェックの代表的な方法とは:Google Cloudチートシート(3)
Google Cloudを活用する上でのさまざまなコツを、できるだけ分かりやすく説明する連載「Google Cloudチートシート」。今回はBigQueryのテーブル間でのデータの一致をチェックする代表的な方法を紹介します。
Google Cloudの代表的なサービスの一つにBigQueryがあります。高性能なデータウェアハウスサービスで 、PB(ペタバイト)級のデータを扱うことができます。とはいえ、大規模なデータを扱うことには課題も伴います。
その一つはシステムの新規開発や追加開発、データ移行などにおけるデータの検証です。
小規模なデータでは、カラム1個1個を検証していくこともできますが、大規模なデータではこれが時間的に難しくなります。従って、テーブルなどの単位で間違いのあるなしを判定していく必要があります。例えば以下のようなケースが考えられます。
- システム連携時のデータ整合性検証
シビアなデータ整合性が求められるアプリケーションの構築時に、アプリケーションでデータの整合性を検証し、保証する必要があります - システムを改修した時の現新比較
リファクタリングなどを行った際の現新比較を行うケースです。アウトプットとなるデータが修正前後で変わっていないことの検証を行う必要があります - データの移行
他のデータストアからデータを移行したとき、移行前後でデータが一致しているかどうかの検証を行う必要があります - データのリストアの検証
バックアップデータおよびログからデータをリストアしたとき、想定通りのデータが復元できているかどうかの検証を行う必要があります
このようなデータ検証は、システムの信頼性や品質を確保するために非常に重要です。データの不一致は、システムの誤動作やデータの損失につながる可能性があります。
今回は膨大なデータがある場合でも対応できる、BigQueryのコンソール上のSQLエディタを使ったデータ比較の代表的な方法を紹介します。
Copyright © ITmedia, Inc. All Rights Reserved.