Google Cloudを活用する上でのさまざまなコツを、できるだけ分かりやすく説明する連載「Google Cloudチートシート」。今回はBigQueryのテーブル間でのデータの一致をチェックする代表的な方法を紹介します。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Google Cloudの代表的なサービスの一つにBigQueryがあります。高性能なデータウェアハウスサービスで 、PB(ペタバイト)級のデータを扱うことができます。とはいえ、大規模なデータを扱うことには課題も伴います。
その一つはシステムの新規開発や追加開発、データ移行などにおけるデータの検証です。
小規模なデータでは、カラム1個1個を検証していくこともできますが、大規模なデータではこれが時間的に難しくなります。従って、テーブルなどの単位で間違いのあるなしを判定していく必要があります。例えば以下のようなケースが考えられます。
このようなデータ検証は、システムの信頼性や品質を確保するために非常に重要です。データの不一致は、システムの誤動作やデータの損失につながる可能性があります。
今回は膨大なデータがある場合でも対応できる、BigQueryのコンソール上のSQLエディタを使ったデータ比較の代表的な方法を紹介します。
Copyright © ITmedia, Inc. All Rights Reserved.