- PR -

「うるう」をキーワードにして検索すると、このキーワードが含まれない投稿までヒットする。

1
投稿者投稿内容
unibon
ぬし
会議室デビュー日: 2002/08/22
投稿数: 1532
お住まい・勤務地: 美人谷        良回答(20pt)
投稿日時: 2006-06-29 16:51
最近はここに投稿してもスタッフのかたに見ていただけるのかどうか分からないのですが、とりあえず参加者のみなさまへのお知らせも兼ねて書いておきます。

件名のとおりですが、
Top > @IT会議室 > 検索
の画面で、キーワードに、

うるう

を指定して検索すると、このキーワードを含む投稿はおそらくヒットしていると思いますが、このキーワードを含まない投稿までヒットしているようです。
ちなみに、

うるう年

で検索すれば大丈夫のようです。

--
unibon {B73D0144-CD2A-11DA-8E06-0050DA15BC86}
じゃんぬねっと
ぬし
会議室デビュー日: 2004/12/22
投稿数: 7811
お住まい・勤務地: 愛知県名古屋市
投稿日時: 2006-06-30 09:31
これは、以前よりありましたね。

その他にも、ダメなワードがあります。
たとえば、「まとも」 もダメだったりします。

_________________
C# と VB.NET の入門サイト
じゃんぬねっと日誌
甕星
ぬし
会議室デビュー日: 2003/03/07
投稿数: 1185
お住まい・勤務地: 湖の見える丘の上
投稿日時: 2006-06-30 10:22
これはバグと言うよりも仕様でしょうね。

全文検索では文章を単語に分解してインデックスを生成します。この「単語に分解する」と言う処理が日本語では難物なんです。インデックス生成時の単語辞書に載っていない文字列は、正常に単語に分割できない事がよくあります。「うるう年」は辞書にのっているけど「うるう」は辞書に載っていないのでしょう。おそらく「うる」「う」等の二つの単語に分割して格納されているんじゃないですか。

茶筅のような形態素解析エンジンを用いれば、未知の単語もきちんと切り出せる事が多いのですが、いかんせんCPUリソースを食い過ぎるのですよ。

英語なら単純にスペースで分割していけば単語を切り出せるけど、日本語には明確な区切りが無いですからね。
unibon
ぬし
会議室デビュー日: 2002/08/22
投稿数: 1532
お住まい・勤務地: 美人谷        良回答(20pt)
投稿日時: 2006-07-01 12:18
コメントありがとうございます。
その後、試してみたところ、



ヮ (カタカナの「ワ」の小さいやつ)

などの1文字だけでも起こることが分かりました。
そんな特殊な文字を使って投稿する人はそうはいないはずですし、検索結果で出てくる投稿の内容の中にもそれらの文字は含まれていませんでした。

--
unibon {B73D0144-CD2A-11DA-8E06-0050DA15BC86}
1

スキルアップ/キャリアアップ(JOB@IT)