Weekly Top 10

OPMLのPはProcessior? ――誤記がコピペで大量伝播か

2007/07/09

 先週の@IT NewsInsightのアクセスランキングトップは「ソフトウェア同様、CPUにもバグはある」だった。読者の中には、今から13年前の1994年に大騒動となった「ペンティアムFDIVバグ」を思い出した人もいるだろう。そういう騒動を知らない若い世代もいたかもしれない。

 FDIVバグとは、浮動小数点ユニットに存在したバグで、特定の数値の組み合わせでの除算時に非常にまれに小数点以下4〜19桁以降の計算結果が狂うというものだった。科学計算を行うユーザーは別として、もともと一般ユーザーにはまったくと言っていいほど影響のないバグではあったたが、初期のインテルの対応が悪かったために、最終的に同社はCPUの交換を受け付けるという事態にまで発展した。インテルは、このときに学んだ教訓を忘れないためにバグ入りペンティアムのチップを廃棄せずにキーホルダーにして配った、というのは有名な話だ。

NewsInsight Weekly Top 10
(2007年7月1日〜7月8日)
1位 ソフトウェア同様、CPUにもバグはある
2位 70xシリーズはライフスタイルを大事にする人向け
3位 USBメモリウイルスが増加、先祖返りする感染手法
4位 最適な工期は「投入人月の立方根の2.4倍」、JUASが調査
5位 ブロードバンドで儲からないキャリア、次は「PCコンシェルジュ」
6位 Debian GNU/Solarisという選択肢
7位 「ういまご・はつまご」、正しい読みに決着
8位 慶應がGoogleブック検索に12万冊データ提供
9位 やっとパッケージソフトを名乗れるようになった〜サイボウズ
10位 はてな、世界に向けた新サービスを11日リリースへ

 先週のニュースで個人的に気になったのは、小学館グループのネットアドバンスが7月2日から「JFセレクトシリーズ 日国オンライン」を開始したというニュースだ。日国(にっこく)は、小学館が長年作り育ててきた日本語辞典「日本国語大辞典第二版」で、全13巻、50万項目、100万用例という膨大な日本語データベースだ。その実力を端的に示す例として、「「ういまご・はつまご」、正しい読みに決着」という記事を書いた。

 オックスフォード英語辞典を手本にしたという日国は、ある言葉について、その言葉が歴史的にいつ頃、どういう文献に登場したかを調べて記載してあるという辞典だ。オックスフォード英語辞典を開くと、例えば「ビット」(bit)とか「猫」(cat)という単語が、いつ頃、誰が使い出したかということまで分かるのだが、それと同様のことが日本語でもできる。「言葉の戸籍簿」という表現がぴったりだ。

 「初孫」の例でいえば、ハツマゴの読みは明治初期にまでさかのぼり、ウイマゴは少なくとも17世紀の文献に見られる。確かにハツマゴという読みはウイマゴよりも新しいが、それでも「言葉を知らない若者の誤読だ」とあげつらうほど古くはない。さらに、平安時代の古典には「ハツムマゴ」という読みが見られ、むしろ「初」を「ハツ」と読むほうが時代としては古く、それだけ正統……、と言いたいところだが、中世までさかのぼってしまうと、さすがに“正統”とはなんぞやという話になってきそうだ。漢字の正統性を語るのに康煕字典を持ち出すのと似たような、運用者不在の権威主義のにおいがする。現代日本語の運用を考えるのに、3世紀も前の中国の字典に過剰な権威を認めても仕方がない。

 文献の用例は、その時代の言語運用者たちの残した痕跡でしかない。字典・辞典はスナップショットだ。現在の用法がどうあるべきかというときに過去の来歴を調べることは意義深いとはいえ、あまり正統性の議論をしても仕方がない。どっちみち正統性などあってないような話なのだから、居丈高に人の言葉を「間違いだ」などと指摘せず、現在の語彙体系や文法体系のなかで整合性が高いものを使えばいいと記者は思う。「初」を「うい」と読むのは今や例外的で、今後も「はつ」や「しょ」に徐々に統合されていくだろうし、そのほうが読みが混乱している現状よりも、よほど合理的でいいのではないかと思う。

誰も1次情報に当たらないWebの世界

 「はつまご、ういまご」の例で、数百年単位の言葉の変化について書いていたとき、ちょっと考えさせられる現象に出くわした。とあるIT系のニュースサイトに、「『OPML』(Outline Processior Markup Language)」という語句が掲載されていた。「Processor」ではなく、綴りが「Processior」となっているので、すぐにタイプミスだろうと思ったのだが、検索してみて驚いた。

 グーグルで「OPML」で検索すると、ランキング上位のほうに「Processior」という綴りが大量に出てくるのだ。改めて「OPML Processior」で検索すると、198件がヒット。ややフランス語のような語尾なので、まさか英米語帝国主義に反発を感じるフランス人技術者が、あえてフランス語を使ったのかと一瞬混乱してしまったほどだが、それはさすがになかった。さらに「OPML Processor」で調べてみると約17万件。

 ただ、それでも腑に落ちない。ふつうに考えれば17万件に対する198件は単なる間違いだと思いたくなるのだが、初孫の読みを間違えるのと違って、Processiorというスペルミスは、誰か1人の間違いが元となって順に伝播したとしか思えないため、198件はあまりに多い。なぜなら、これは文字列のカット&ペーストか、あるいは「なるほど、そう綴るのか」と思って明示的にタイプしないと広がらないはずだからだ。

 最終的には「opml.org」とWikipediaを見て、確かに「Processor」が正しく、「Processior」はタイプミスだろうと考えるに至ったのだが(iとoはキーボード上で隣同士)、ちょっと考えさせられる現象だ。

 Processiorであればタイプミスと分かるかもしれないが(いや、日本人にとってはそうでもないからこそ伝播してしまったのだろうか)、もっと微妙な違いのものであれば、あっという間に変異体のほうがオリジナルを凌駕してしまうことも起こりそうだ。誰も1次情報に当たらず、コピー&ペーストだけで誤りが伝播していくWebの世界。最近話題の“集合知”の危うさを感じるとともに、100年以上の時間をかけて作られた日本語辞書の重みと、Webの世界の軽さの落差にめまいがする思いだ。検索上位が確かな情報だと思いこんだり、いまでもまだWebの外にしかない1次情報も大量にあるということを忘れないようにしたいものだ。

 この原稿を書き終わってみると、Processiorは198件から204件に増えていた。

(@IT 西村賢)

情報をお寄せください:



@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)