テラバイト級のデータを高速検索、東芝のXMLDB

2005/4/21

東芝ソリューション取締役統括技師長屋敷田広実氏

　東芝ソリューションは4月20日、テラバイト級の大容量データでも高速検索が可能なXMLデータベース「TX1」をリリースした。XMLデータから構造を自動的に抽出して索引化する構造自動抽出技術「スキーマアナライザ」と、抽出した構造情報および語彙（ごい）情報を統計的に分析して最適な問い合わせプランを生成する問い合わせ最適化技術「クエリオプティマイザ」を独自に開発した。これらの検索技術を搭載することで、例えば、約100GBのデータ（8年分の特許公開情報約300万件）における1万件のデータの検索を約1秒で行うことが可能となる。

　XMLデータを検索する場合、通常であれば、階層構造を順に辿ったり、さまざまな条件を満足する部分階層を抽出するための“階層パターン照合”と呼ばれる手続きが行われる。階層パターン照合の弱点は、格納するデータ容量が膨大になると、検索性能そのものが低下するところにある。つまり、階層構造を順に辿らなければならないため、データ量が増大するにつれて検索時間がかかってしまうのである。これらの課題を解決するために同社では、階層構造を自動的に抽出して独自の方式で索引化し、索引化されている構造情報を使って階層パターンの照合を実施する構造自動抽出技術「スキーマアナライザ」を開発した。これにより、データ集合への参照を最小限に抑えることに成功した。

　「TX1」では検索のための問い合わせ言語にXQueryを利用しているが、XQueryを高速に実行するため、抽出した構造と語彙の統計情報をヒントに、最適な問い合わせプランを生成する技術「クエリオプティマイザ」を開発した。例えば、書籍情報をXMLデータで格納したXMLデータベースで、任意の階層内に“XML”を含み、“ベストセラー賞”を受賞した本（のデータ）を検索したとしよう。この場合、“XML”は非常に多く、受賞タグは少ないという統計情報があったとすると、これらの情報をヒントに、“受賞”タグが付いているデータを先に参照するプランを生成するというケースが想定される。

　同社では「TX1」をベースに「保険文書XMLソリューション」や「電力情報共有ソリューション（仮称）」「次世代新聞素材管理ソリューション」「コンテンツマネジメントソリューション」などテラバイト級のデータ容量を必要とする特定業界向けのパッケージを商品化し、提供する。検索エンジンそのものの他社への提供も検討している。

（＠IT　谷古宇浩司）

[関連リンク]
東芝ソリューションの発表資料

情報をお寄せください：

テラバイト級のデータを高速検索、東芝のXMLDB

最新記事

転職／派遣情報を探す

年収６００万円！エンジニア向けの求人満載。転職希望者必見

エンジニアの転職なら【転職サーチ】