- - PR -
「うるう」をキーワードにして検索すると、このキーワードが含まれない投稿までヒットする。
1
投稿者 | 投稿内容 |
---|---|
|
投稿日時: 2006-06-29 16:51
最近はここに投稿してもスタッフのかたに見ていただけるのかどうか分からないのですが、とりあえず参加者のみなさまへのお知らせも兼ねて書いておきます。
件名のとおりですが、 Top > @IT会議室 > 検索 の画面で、キーワードに、 うるう を指定して検索すると、このキーワードを含む投稿はおそらくヒットしていると思いますが、このキーワードを含まない投稿までヒットしているようです。 ちなみに、 うるう年 で検索すれば大丈夫のようです。 -- unibon {B73D0144-CD2A-11DA-8E06-0050DA15BC86} |
|
投稿日時: 2006-06-30 09:31
これは、以前よりありましたね。
その他にも、ダメなワードがあります。 たとえば、「まとも」 もダメだったりします。 _________________ C# と VB.NET の入門サイト じゃんぬねっと日誌 |
|
投稿日時: 2006-06-30 10:22
これはバグと言うよりも仕様でしょうね。
全文検索では文章を単語に分解してインデックスを生成します。この「単語に分解する」と言う処理が日本語では難物なんです。インデックス生成時の単語辞書に載っていない文字列は、正常に単語に分割できない事がよくあります。「うるう年」は辞書にのっているけど「うるう」は辞書に載っていないのでしょう。おそらく「うる」「う」等の二つの単語に分割して格納されているんじゃないですか。 茶筅のような形態素解析エンジンを用いれば、未知の単語もきちんと切り出せる事が多いのですが、いかんせんCPUリソースを食い過ぎるのですよ。 英語なら単純にスペースで分割していけば単語を切り出せるけど、日本語には明確な区切りが無いですからね。 |
|
投稿日時: 2006-07-01 12:18
コメントありがとうございます。
その後、試してみたところ、 ゐ ゑ ヮ (カタカナの「ワ」の小さいやつ) などの1文字だけでも起こることが分かりました。 そんな特殊な文字を使って投稿する人はそうはいないはずですし、検索結果で出てくる投稿の内容の中にもそれらの文字は含まれていませんでした。 -- unibon {B73D0144-CD2A-11DA-8E06-0050DA15BC86} |
1