連載

2022年4月19日

フルテキストインデックスの出力キーワードに関する情報を出力する：SQL Server動的管理ビューレファレンス（103）

「Microsoft SQL Server」が稼働するデータベースシステムを運用する管理者に向け、「動的管理ビュー」の活用を軸にしたトラブル対策のためのノウハウを紹介していきます。今回は、フルテキストインデックスの出力キーワードに関する情報を出力する方法について解説します。

[椎名武史，＠IT] PC用表示関連情報

LINE

Hatena

SQL Server動的管理ビュー一覧

　本連載では、「Microsoft SQL Server（以下、SQL Server）」で使用可能な動的管理ビューについて、動作概要や出力内容などを紹介していきます。今回は動的管理関数「sys.dm_fts_parser」における、フルテキストインデックスの出力キーワードに関する情報を出力する方法について解説します。対応バージョンは、SQL Server（サポートされている全てのバージョン）です。

概要

　SQL Serverではフルテキスト検索の機能を使用して、英語や日本語などの特定の言語の規則に基づいた言語検索を実行できます。フルテキスト関数を使用して大量のテキストデータを対象としたテキスト検索をする場合、全文検索をするLIKE句と比較して高速に実行できます。フルテキスト検索では、フォーマットされたバイナリデータ（Microsoft Wordドキュメントなど）を対象とすることもできます。

　フルテキスト検索を使用するには、SQL Serverインスタンスに「検索のためのフルテキスト抽出とセマンティック抽出」機能を追加する必要があります。また、データベースにフルテキストカタログを作成し、対象のテーブルに対してフルテキストインデックスを作成する必要があります。

　格納されているデータにフルテキストインデックスを作成すると、「sys.dm_fts_index_keywords」などを使用して、どのようなキーワードが登録されているか確認できます。ただし、キーワードを確認するには、実際にフルテキストインデックスを作成する必要がありました。

　「sys.dm_fts_parser」では、引数で渡すクエリのフルテキストインデックスの出力キーワードに関する情報を出力します。

sys.dm_fts_parser（Transact-sql SQL）

構文と引数

構文　sys.dm_fts_parser('query_string', lcid, stoplist_id, accent_sensitivity)


列名	データ型	説明
query_string	nvarchar（4000）	解析するクエリ
lcid	int	解析に使用するワードブレーカーのロケール識別子
stoplist_id	int	ストップリストのID
accent_sensitivity	bit	アクセントの区別制御

出力内容


列名	データ型	説明
keyword	varbinary（128）	16進数で表されたキーワード
group_id	int	論理グループを区別する整数値
phrase_id	int	複合単語を区別する整数値
occurrence	int	各単語の順序
special_term	nvarchar（4000）	用語の特性に関する情報を格納する。次のいずれかになる　Exact match 　Noise word 　End of Sentence 　End of paragraph 　End of Chapter
display_term	nvarchar（4000）	人間が判読できるキーワード
expansion_type	int	特定の用語の拡張の特性に関する情報を格納する。次のいずれかになる　「0」＝1つの単語の場合　「2」＝変化形の拡張　「4」＝類義語辞典の拡張と置換
source_term	nvarchar（4000）	特定の用語の生成元または解析元になった用語

動作例

　解析したいクエリを引数として渡し、どのようなキーワードが出力されるかを確認します（図1）。

図1　図1：入力されたクエリで出力キーワードを確認できる

　「lcid」のロケール識別子は「sys.fulltext_languages」などに説明が記載されており、今回は「lcid」で「1041」を渡したため日本語を指定しています。「stoplist_id」で「NULL」を渡したため、ストップリストも使用していません。

sys.fulltext_languages（Transact-SQL）

　出力結果を確認すると、「sql」と「server」などスペースを含む単語は分割されており、「を」や「は」などの日本語の助詞も正常に分割されています。

　次に、システムストップリストを使用するように「stoplist_id」で「0」を指定して実行してみます（図2）。

図2　「stoplist_id」で「0」を指定すると、助詞がノイズワードと認識された

　キーワードの個数に変化はありませんでしたが、「を」や「は」などの助詞がノイズワードであると認識されました。「lcid」を英語の「1033」に指定して実行すると助詞を考慮したキーワードではなくなり、「。」の句点が文の終わりであることも認識できませんでした（図3）。

図3　「lcid」で「1033」を指定すると、日本語の助詞や句点は認識されなかった

　代替の語形を選択できるFORMSOFを使用すると、「expansion_type」列が異なる出力キーワードを確認できます（図4）。

図4　FORMSOSを使用して代替の語形の出力キーワードを確認できる

※本Tipsは、「Windows Server 2019」上に「SQL Server 2019」をインストールした環境を想定して解説しています。

筆者紹介

椎名武史（しいなたけし）

BIPROGY株式会社（ビプロジー）所属。Microsoft MVP for Data Platform（2017～）。入社以来 SQL Serverの評価／設計／構築／教育などに携わりながらも、主にサポート業務に従事。SQL Serverのトラブル対応で社長賞の表彰を受けた経験も持つ。休日は学生時代の仲間と市民駅伝に参加し、銭湯で汗を流してから飲み会へと流れる。

伊東敏章（いとうとしあき）

BIPROGY株式会社（ビプロジー）所属。入社以来SQL Server一筋で評価／設計／構築／教育などに携わりながらも、主にサポート業務に従事。社内のプログラミングコンテストで4回の優勝経験も持つ。趣味は輪行で週末は自転車を持っての旅行。目標は色々な日本百選を制覇すること。

フルテキストインデックスの出力キーワードに関する情報を出力する：SQL Server動的管理ビューレファレンス（103）

概要

構文と引数

出力内容

動作例

筆者紹介

椎名武史（しいなたけし）

伊東敏章（いとうとしあき）

関連記事

総合記事ランキング

フルテキストインデックスの出力キーワードに関する情報を出力する：SQL Server動的管理ビューレファレンス（103）

概要

構文と引数

出力内容

動作例

筆者紹介

椎名 武史（しいな たけし）

伊東 敏章（いとう としあき）

関連記事

総合記事ランキング

椎名武史（しいなたけし）

伊東敏章（いとうとしあき）