フルテキストインデックスの出力キーワードに関する情報を出力する:SQL Server動的管理ビューレファレンス(103)
「Microsoft SQL Server」が稼働するデータベースシステムを運用する管理者に向け、「動的管理ビュー」の活用を軸にしたトラブル対策のためのノウハウを紹介していきます。今回は、フルテキストインデックスの出力キーワードに関する情報を出力する方法について解説します。
本連載では、「Microsoft SQL Server(以下、SQL Server)」で使用可能な動的管理ビューについて、動作概要や出力内容などを紹介していきます。今回は動的管理関数「sys.dm_fts_parser」における、フルテキストインデックスの出力キーワードに関する情報を出力する方法について解説します。対応バージョンは、SQL Server(サポートされている全てのバージョン)です。
概要
SQL Serverではフルテキスト検索の機能を使用して、英語や日本語などの特定の言語の規則に基づいた言語検索を実行できます。フルテキスト関数を使用して大量のテキストデータを対象としたテキスト検索をする場合、全文検索をするLIKE句と比較して高速に実行できます。フルテキスト検索では、フォーマットされたバイナリデータ(Microsoft Wordドキュメントなど)を対象とすることもできます。
フルテキスト検索を使用するには、SQL Serverインスタンスに「検索のためのフルテキスト抽出とセマンティック抽出」機能を追加する必要があります。また、データベースにフルテキストカタログを作成し、対象のテーブルに対してフルテキストインデックスを作成する必要があります。
格納されているデータにフルテキストインデックスを作成すると、「sys.dm_fts_index_keywords」などを使用して、どのようなキーワードが登録されているか確認できます。ただし、キーワードを確認するには、実際にフルテキストインデックスを作成する必要がありました。
「sys.dm_fts_parser」では、引数で渡すクエリのフルテキストインデックスの出力キーワードに関する情報を出力します。
構文と引数
構文 sys.dm_fts_parser('query_string', lcid, stoplist_id, accent_sensitivity)
列名 | データ型 | 説明 |
---|---|---|
query_string | nvarchar(4000) | 解析するクエリ |
lcid | int | 解析に使用するワードブレーカーのロケール識別子 |
stoplist_id | int | ストップリストのID |
accent_sensitivity | bit | アクセントの区別制御 |
出力内容
列名 | データ型 | 説明 |
---|---|---|
keyword | varbinary(128) | 16進数で表されたキーワード |
group_id | int | 論理グループを区別する整数値 |
phrase_id | int | 複合単語を区別する整数値 |
occurrence | int | 各単語の順序 |
special_term | nvarchar(4000) | 用語の特性に関する情報を格納する。次のいずれかになる Exact match Noise word End of Sentence End of paragraph End of Chapter |
display_term | nvarchar(4000) | 人間が判読できるキーワード |
expansion_type | int | 特定の用語の拡張の特性に関する情報を格納する。次のいずれかになる 「0」=1つの単語の場合 「2」=変化形の拡張 「4」=類義語辞典の拡張と置換 |
source_term | nvarchar(4000) | 特定の用語の生成元または解析元になった用語 |
動作例
解析したいクエリを引数として渡し、どのようなキーワードが出力されるかを確認します(図1)。
「lcid」のロケール識別子は「sys.fulltext_languages」などに説明が記載されており、今回は「lcid」で「1041」を渡したため日本語を指定しています。「stoplist_id」で「NULL」を渡したため、ストップリストも使用していません。
出力結果を確認すると、「sql」と「server」などスペースを含む単語は分割されており、「を」や「は」などの日本語の助詞も正常に分割されています。
次に、システムストップリストを使用するように「stoplist_id」で「0」を指定して実行してみます(図2)。
キーワードの個数に変化はありませんでしたが、「を」や「は」などの助詞がノイズワードであると認識されました。「lcid」を英語の「1033」に指定して実行すると助詞を考慮したキーワードではなくなり、「。」の句点が文の終わりであることも認識できませんでした(図3)。
代替の語形を選択できるFORMSOFを使用すると、「expansion_type」列が異なる出力キーワードを確認できます(図4)。
※本Tipsは、「Windows Server 2019」上に「SQL Server 2019」をインストールした環境を想定して解説しています。
筆者紹介
椎名 武史(しいな たけし)
BIPROGY株式会社(ビプロジー)所属。Microsoft MVP for Data Platform(2017〜)。入社以来 SQL Serverの評価/設計/構築/教育などに携わりながらも、主にサポート業務に従事。SQL Serverのトラブル対応で社長賞の表彰を受けた経験も持つ。休日は学生時代の仲間と市民駅伝に参加し、銭湯で汗を流してから飲み会へと流れる。
伊東 敏章(いとう としあき)
BIPROGY株式会社(ビプロジー)所属。入社以来SQL Server一筋で評価/設計/構築/教育などに携わりながらも、主にサポート業務に従事。社内のプログラミングコンテストで4回の優勝経験も持つ。趣味は輪行で週末は自転車を持っての旅行。目標は色々な日本百選を制覇すること。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- SQL Serverの動的管理ビューとは?
「Microsoft SQL Server」が稼働するデータベースシステムを運用する管理者に向け、「動的管理ビュー」の活用を軸にしたトラブル対策のためのノウハウを紹介していきます。 - 「DMV(Dynamic Management View)」でパフォーマンス遅延の「原因」を調べる
本連載は、「Microsoft SQL Server」で発生するトラブルを「どんな方法で」「どのように」解決していくか、正しい対処のためのノウハウを紹介します。今回は、「処理遅延の原因を追求する“DMVの使い方”」を説明します。 - SQL Serverの動きを制御する「トレースフラグ」とは何か
「Microsoft SQL Server」が稼働するデータベースシステムを運用する管理者に向け、「トレースフラグ」の活用を軸にしたトラブル対策のためのノウハウを紹介していきます。初回は「トレースフラグとはそもそも何か」を解説します。