「Microsoft SQL Server」が稼働するデータベースシステムを運用する管理者に向け、「動的管理ビュー」の活用を軸にしたトラブル対策のためのノウハウを紹介していきます。今回は、統計のヒストグラムに関する情報の出力について解説します。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
本連載では、「Microsoft SQL Server(以下、SQL Server)」で使用可能な動的管理ビューについて、動作概要や出力内容などを紹介していきます。今回は動的管理関数「sys.dm_db_stats_histogram」における、統計のヒストグラムに関する情報の出力について解説します。対応バージョンは、SQL Server 2016(13.x)以降、「Azure SQL Database」「Azure SQL Managed Instance」です。
SQL Serverでは、クエリ実行時にどのインデックスを使用すれば効率的に実行できるかを判断するために統計情報を使用します。統計情報には、値の分布や列間の相関関係などの情報が含まれます。
統計情報には、データセットの個別の値ごとの出現頻度が記録されているヒストグラムも格納されています。ヒストグラムでは境界となる値やその値の出現回数、その境界までの範囲や平均出現回数などが記録されています。「sys.dm_db_stats_histogram」では、統計のヒストグラムに関する情報を出力します。
構文 sys.dm_db_stats_histogram (object_id, stats_id)
列名 | データ型 | 説明 |
---|---|---|
object_id | int | オブジェクトのID |
stats_id | int | 統計のID |
列名 | データ型 | 説明 |
---|---|---|
object_id | int | オブジェクトのID |
stats_id | int | 統計のID |
step_number | int | ヒストグラムのステップ数 |
range_high_key | sql_variant | ヒストグラム区間の上限のキー値 |
range_rows | real | ヒストグラム区間内に列値がある行の予測数 |
equal_rows | real | ヒストグラム区間の上限と列値が等しい行の予測数 |
distinct_range_rows | bigint | ヒストグラム区間内にある個別の列値を持つ行の予測数 |
average_range_rows | real | ヒストグラムのステップ内で重複する列値を持つ行の平均数 |
テーブルにデータを幾つか格納した後に「sys.dm_db_stats_histogram」を実行すると、統計のヒストグラムに関する情報が出力されました(図1)。
DBCC SHOW_STATISTICSのWITH HISTOGRAMオプションを使用した場合も、類似の出力結果を確認できます(図2)。
なお、「sys.dm_db_stats_histogram」は動的管理関数のため、そのまま他のクエリと結合することができ、利便性が高いです。実データに極端な偏りがある場合は、統計情報が正しい分布を示していない可能性があります。
正しい分布を示していない場合は非効率な実行プランが選択される可能性があるため、サンプル率を変更した統計情報の更新をお勧めします。
※本Tipsは、「Windows Server 2019」上に「SQL Server 2019」をインストールした環境を想定して解説しています。
BIPROGY株式会社(ビプロジー)所属。Microsoft MVP for Data Platform(2017〜)。入社以来 SQL Serverの評価/設計/構築/教育などに携わりながらも、主にサポート業務に従事。SQL Serverのトラブル対応で社長賞の表彰を受けた経験も持つ。休日は学生時代の仲間と市民駅伝に参加し、銭湯で汗を流してから飲み会へと流れる。
BIPROGY株式会社(ビプロジー)所属。入社以来SQL Server一筋で評価/設計/構築/教育などに携わりながらも、主にサポート業務に従事。社内のプログラミングコンテストで4回の優勝経験も持つ。趣味は輪行で週末は自転車を持っての旅行。目標は色々な日本百選を制覇すること。
Copyright © ITmedia, Inc. All Rights Reserved.