Loading
|
@IT > QuickSolutionが実現するコンテンツメタデータ管理ソリューション |
|
全世界的に、「コンテンツ」と呼ばれる著作物の流通が盛んになってきた。最近では新聞や雑誌向けに書かれた記事がWebに掲載されたり、テレビ局がインターネットで配信するために映像コンテンツを制作したりする。視聴率やサイトアクセス向上のカギはまさにコンテンツが握っているため、有力なコンテンツはさまざまなチャネルで何度も再利用されるのだ。 しかし、このようにコンテンツ流通が前提となる世界では、それを可能にするための管理もしっかりと行わなければならない。例えば、いま筆者が書いているこの原稿にも、直接原稿には載らない情報がある。いつ制作されたのか。制作者はどのような人物で契約はどのようになっているのか。最初に掲載されたのはいつで、それはどのような媒体か。転載は可能か不可か。その際の条件は何か、といったものだ。こうした“情報の情報”はメタ情報と呼ばれる。コンテンツ流通のニーズが拡大しつつある現在、必要なときにはいつでもこのようなメタ情報にアクセスでき、目的の情報を取得できるようにしたいという要望もまた増しているのである。
そうした時代の動向をいちはやくキャッチしたのが、ネクストコムだった。コンテンツやメタ情報を管理し、その自由な検索を可能にするソリューションの必要性を認識した同社は、社内に開発プロジェクトを立ち上げて動き出した。 まずは、メタ情報というデータを格納するための器がいる。普通ならここでリレーショナルデータベースを選択するところだろうが、ネクストコムはXMLデータベースを選んだ。メタ情報で管理されるデータ項目は常に一定というわけにはいかない。時代に応じて新たに必要になったり、逆に不要になったりと、アメーバのように増減する。そのような性質を持ったデータを扱うのではあれば、XMLデータベースの方が適していると判断したのである。そのXMLデータベースには、三井物産/三井情報開発が日本での総販売店を務める米国Xpriori社の「NeoCoreXMS」を採用した。その理由はパフォーマンスと大容量データの取り扱いだ。Xpriori社の特許技術DPP(Digital Pattern Processing)と呼ばれる独自の検索技術をベースにしており、競合製品と比較して高速検索を実現する。また、情報管理システムというからには大量データを扱う可能性があり、そのような環境であっても高速な検索機能を提供できることが必須の条件だった。
しかし、データベースシステムを利用するのは、必ずしも格納されているデータを熟知している専門家ばかりとは限らない。XMLデータベースにプラスアルファの機能があれば、より使いやすいシステムを構築できるとネクストコムは判断した。 そのネクストコムが検討の末に選んだのが、住友電工情報システムの類似情報検索エンジン「QuickSolution」だった。ネクストコム 第三事業本部 第二営業部 営業三課 課長 久永航氏は、選定理由を次のように語る。「まずはNeoCoreXMSと連携できる製品であったことが1つ。すでにこれら2つの組み合わせで実現したシステムの実例があり、『行ける』と見通しを立てられたことが大きかったですね」 同社 サービスソリューション開発本部 サービスソリューション開発二部 一課 チームリーダー 石黒凡子氏は、開発者の立場から「とにかくどんな人もやさしく使えて、しかも検索に強いデータベースシステムにしたいという思いがありました。高性能のXMLデータベースではありましたが、単体で仕組みを作ろうとすると、特定の検索パターンの性能を上げるために特別なインデックスを張ったり、一時ファイルをデータベースに持たせたりといった工夫が必要になり、システムの構造が複雑になる可能性があります。しかし、QuickSolutionを組み合わせることでシンプルでありながらさらに高い検索機能を持たせることができるので、この構成がベストだと考えました」とQuickSolutionのメリットに言及した。
あらためて類似検索エンジンの意味するところを説明しよう。これは、自然文で入力された質問文と類似するドキュメントを検索する技術である。質問文と完全一致しなくても、データとして格納されたドキュメント群から該当するものを探し出すことができる。 例えば、質問文として「デジタルカメラの画像をプリンタで印刷する方法は?」と入力したとしよう。するとQuickSolutionは、データベースの中から
など、質問文と類似したテキストを抽出する。 このとき、QuickSolutionは2つのステップで検索処理を行っている。ステップ1では、出現頻度を基に検索に有効な部分文字列を質問文から高速に選別する。冒頭の質問の場合、「デジタルカメラ」「画像」「プリンタ」「印刷」といった言葉を抽出し、さらに検索漏れを防ぐため1〜4文字の分割も行う。例えばデジタルカメラの場合は、「デジ」「ジタ」「タル」「ルカ」「カメ」「メラ」といった分解も行う。 ステップ2は、類似度の算出だ。各部分文字列の出現頻度および出現集中度を考慮した重みを加算して、類似度が高いものから検索結果として出力する。 こうした処理フローにより、QucikSolutionは検索キーワード/文の厳密性をユーザーに要求せず、表記ゆれも吸収した検索機能を実現しているのである。
では、今回の事例に戻ろう。 システム構成は図1のとおりだ。XMLデータベースサーバをUNIXサーバ、検索エンジンサーバやWebサーバなどはすべてLinuxベースで構築している。検索エンジンサーバは2台のマシンでロードバランシングを行っている。データベース容量については導入案件に依存するところだが、いまのところ数百G〜数Tbytes程度を想定しているという。
実際にデモシステム(データベースのサイズは数百Gbytes)で検索性能を見ることができた。正確にはひらがなとカタカナからなる固有名詞(例:あいうエオ)を、ひらがな表記(例:あいうえお)で検索してみる。検索語はまずQuickSolutionであいまい検索され、文字列の特定を経てXMLデータベースでの検索となる。それでもほぼ一瞬で検索結果が返ってくる。ヒット率もほぼ100%に近い。これならストレスなく使えるだろう。
住友電工情報システム ビジネスソリューション開発部 QuickSolution開発課 課長 武並佳則氏は、ネクストコムが構築した今回のデータベースソリューションについて次のように語る。 「QuickSolutionには大きく6つの特徴がありますが、今回のソリューションはそのうちの5つを利用していただいた理想的な案件です。その5つですが、まず自然文による高度な類似検索機能を持ち、そればかりではなくキーワードによる全文検索、日時指定などの属性検索も行える充実した検索機能を存分に使っていただいています。また、専門用語や特殊用語を含んだ文書の検索も辞書なしですぐに利用できる点も高い評価をいただきました。3つ目は、大規模データを高速に検索できることです。10Gbytesのテキストを0.1秒で類似検索することが可能です。4つ目は、XMLファイルやXMLデータベースに対応できることです。5つ目として、充実したAPIを公開しており、組み込み・連携が容易であることが挙げられます。今回もそのAPIを活用いただきました。NeoCoreXMSとの連携は典型的な実例で、まさに使っていただきたい形で使っていただいたのかなと思います。QuickSolutionのこのほかの特徴としては、辞書を使わないでキーワードを抽出する機能、検索結果の可視化機能などのユニークな分析機能もあります」。
コンテンツやメタ情報を一元的に管理し、自由な検索を実現するデータベース。時代のニーズに合致したこのソリューションが世間の耳目を集めるのは当然のことといえるだろう。ネクストコムの構築したこのシステムは次々と導入フェイズに入っており、社団法人日本音楽著作権協会(JASRAC)などでも利用されている。 「類似検索エンジン『QuickSolution』とXMLデータベース『NeoCoreXMS』の組み合わせによるコンテンツ管理、メタ情報管理をしたいとの要望は、映像関連の事業者、インターネットサービスプロバイダの方々からもいただいています。また製造業のお客さまなども『部品管理に使いたい』どおっしゃっており、まだまだ潜在ニーズがあるのでないかと今後に期待しているところです」(久永氏)。
提供:住友電工情報システム株式会社
企画:アイティメディア 営業局 制作:@IT 編集部 掲載内容有効期限:2006年10月27日 |
|