君はベイジアン・ネットワークを知っているか?

山崎俊一
2002/09/26

 多摩川がタマちゃん騒動で盛り上がっていた2002年9月1日、「ベイジアンネットセミナーBN2002」という研究会が東京一ツ橋の学術総合センターで開かれていた。

 ベイジアン・ネットワーク(Bayesian Network)とは、不確かな出来事の連鎖について、確率の相互作用を集計する手法で、知能情報システム構築の有力な手段になっている。「不確実性を扱うための計算モデル」として、認知科学(知能の仕組みや働きなどを解明する科学)、機械学習(経験や学習によって自身が進化するような機械システム)、データ・マイニング(膨大な量のデータの中から特徴や「意味」などを見つけ出す技術。マイニング【mining】とは山から資源などを掘り出す、採鉱/採掘という意味)、ロボティクス(ロボット工学)、ゲノム解析などに応用が広がっている。このセミナーは、産業総合技術研究所(元電子技術総合研究所、経済産業省傘下)が中心になって開かれた。

 ベイジアン・ネットワークの詳細については、産業技術総合研究所本村陽一氏の以下のドキュメントを参照していただきたい。

「分からない」を科学する

 不確かなこと、複雑なもの、よく分からないものは、人を魅了する。例えば、スピルバーグの映画、ジュラシック・パークやロスト・ワールドの原作は「秩序と変化のカオスの縁にある複雑系」(つまり恐竜たち)の進化と絶滅にかかわるフィクションだった(M.クライトン著)。よく分からないから、再現実験しようとしたら大変なことになってしまったという設定で、そのころ「複雑系の科学」が一大ブームになったりしていた。

分かることから出発しよう

 逆に、「分からないこと」ではなく「分かること」から出発して、できるだけ確かな予測を算出しよう、という考え方もある。

 例えば、ある事象Aが起こる確率が、別な事象Bに依存するといった関係は頻繁に見られる。そこで、AとBの同時出現の確率を求める手法をベイズ統計(bayes-statistics)といい、ベイジアン・ネットワーク(Bayesian Network、以下BN)とは、そのような確率事象の連鎖を指す。

 BN2002は、まず東京工業大学佐藤泰介氏のきっちりしたチュートリアルから始まった。ベイズ統計は、高校の教科書にも出てくるぐらいで新しい話ではないが、ネットワークになると各ノードの確率の相互作用(確率伝播:Belief Propagation、以下BP)の集計から尤度(ゆうど=もっともらしさ、確からしさの度合い)を算出する。あまり適切な例ではないが、台風の動きとダムからの貯水放流、潮位などから河口の水位を予測するといった話を想像するとよい。

受難のカイル君

消え行くイルカのカイル君
ほとんどのユーザーによって、「子供だまし」と酷評されたOfficeアシスタント・キャラクタの1つ、イルカのカイル君。Officeアシスタントに先端テクノロジの端緒が応用されていたとは驚きである。ただしカイル君は、いまのところは窓際族に甘んじている。

 BP演算は膨大な計算量を要する。近年、計算機パワーの飛躍的向上とともにBPアルゴリズムの開発も進み、パソコンでのBN利用も始まっている。

 例えば、マイクロソフトWindowsでプリンタやネットワーク接続に不具合があると、ウイザードによる質問、応答で障害診断を試みる。あれがBNの応用だ。

 同様に、Microsoft Officeで初心者ユーザーを優しくナビゲートしてくれるアシスタント、イルカのカイル君もBNを使っていた。だけど、ちょっと発育不全で、Office XPで窓際族になってしまった(日本語版ではいまのところ残存)。Small Business Serverには、BNを応用したより高機能なトラブル・シュータが搭載されている。

 こうした事情は、BN2002セミナーの中心人物、本村陽一氏(産業技術総合研究所)の解説による。セミナーでは、ご本人が開発されたBN構築ソフトウェア「BAYONET」も展示されていた。

自分で作るベイジアン

 米MicrosoftでBN開発を担当するのは、同社における先端技術開発を一手に引き受けるMicrosoft Research(MSR)だという。

 その研究成果として最近注目されているのは、SQL Server 2000およびCommerce Server 2000に搭載されたデータ・マイニング機能だろう。

 同社ではそのアルゴリズムをdependency networkと呼び、BNのごく近い親戚だという。例えば、テレビ放送の視聴率統計を分析して、ある番組を見ている人、見ていない人の統計的特徴を発見する、といった使い方が紹介されている。

 MSRのBNライブラリは無料でダウンロードできる。C++開発環境があれば、自分で試すこともできる。ワイドショーのタマちゃん騒動でも解析してみようか。

BNのコペルニクス的転回

 というように、BNはAI領域から発して、意外と身近なところまで広がっている。大津展之氏(産業技術総合研究所フェロー/東京大学)は、経済産業省RWCプロジェクト(Real World Computingプロジェクト。21世紀の実世界において必要となる、高度で多様な情報処理技術を追求するための研究開発プロジェクト)からの発展の経緯を説明した。

 が、それだけではない。というか、本当に面白いのはこの先だ。

 話は飛ぶけど、第14回 日本IBM科学賞(2000年)を東京工業大学の樺島祥介助教授(知能システム科)が受賞している。テーマは「スピングラス理論に基づく新しい符号・暗号理論の構築」である(受賞内容に関する日本IBMの解説ページ)。

 スピングラス理論とは、ガラスと似た状態の不規則な磁性体の性質を調べる話で、バリバリに物理学。それがなぜ、符号化・暗号理論につながるのだろうか。

 そのキーワードこそBNで、この場合、不揃いな分子分布の解析が数学的にはBNと同等だというのだ。極めて大胆な発想だけど、これが次項、携帯電話のCDMAにもつながる。

 スピングラス理論の詳細は『岩波講座 物理の世界 学習と情報の平均場理論』(樺島祥介 著、岩波書店発行、1300円、ISBN4-00-011157-4)を参照されたい。70ページほどのうすい本だけど、数理フェロモン充満。読み通すのは簡単ではない。が、読み始めたらやめられない。

ランダム符号化手法

 携帯電話で使われるCDMA(Code Division Multiple Access)は、その名の通り符号分割による多重通信をいう。複数のユーザーが電波を共有するために、拡散符号という手法を使う。これは、例えばNTTドコモのサイトにごく簡単な説明がある。

 その図のw-CDMA方式では、PN(Pseudo Noise=擬似雑音)系列と呼ばれる乱数符号で拡散し、複数チャンネルを重ねて送信する(最大128チャンネル)。受信側は同じPN系列符号を乗じて復号できる。これがいま使われている携帯電話の符号化手法だ。

原信号を推測する技術

 で、ちょっとその見方を変えてみよう。

 ランダム符号の復号とは、既知の事象(つまりノイズやエラーを含む受信信号)から、送信側の原信号を推測することにほかならない。だからBNが利用できる。

 BN2002招待講演者の1人、和歌山県立大学の和田山正氏はLDPC(低密度パリティ検査符号)という通信符号にBNによる復号化を組み合わせる手法を詳細に説明した。これはRSエラー訂正(リード・ソロモン・エラー訂正。多ビット・エラーの検出、訂正能力に優れる符号化方式。CDやDVDを始めとして、広く利用されている。リードとソロモンは開発者名)など在来の代数的符号化をはるかにしのぎ、シャノンの符号化定理の限界に迫る高性能化が可能らしい。この定理が公表されたのが1948年だから、何と50年ぶりの快挙に当たる。

 さらに、和田山氏は、BNが記録メディアにも使える、という。次世代ストレージ技術(ディスクなど)を予感させる話である。詳細は、下記を参照されたい。

新鮮、歯ごたえ、日本復活?

 さらに、ゲノム解析やロボットへの応用そのほか、BN2002の話題は、まだまだ続く。満員の会場は、最後まで熱かった(といっても参加者は270人だけど)。

 少し大げさにいえば、「日本発」の新技術領域を次々に築いていくことこそ日本復活への切り札だろう。BNは、知の先端領域の話題でありながら、工学的応用にも直結しているし、32bit PentiumにWindowsといった普通の環境でも動き出している。つまり、大学や研究所の垣根を超えて広がりだしている。ただ、在来の発想の枠では捉えにくく、そのための新しい視点と交流の場を提供したい、というのが本村氏や佐藤氏の狙いらしい。形骸化した大規模学会や、商業的な業界セミナーには決してない、確かな歯ごたえみたいなものが感じられたセミナーだったと、ぼくは思う。End of Article

コラム:関連情報

・1948年、Shanon氏による論文「A Mathematical Theory of Communication」
By C. E. SHANNON

 情報量を数学的に定義し、熱力学のエントロピー(いわば、ばらつき具合の指標)と同等であることを示した(事象またはシンボルの確率pに対し-Σplog p)。これにより通信路容量や符号化効率などが厳密に計算可能になった。わずか55ページほどの論文だが、これを基点として情報技術は大発展をとげた。以来50年、「すべての情報理論はシャノンの脚注である」(笠原正雄氏、大阪学院大)とさえいわれる。

The Bell System Technical Journal,
Vol. 27, pp. 379-423, 623-656, July, October, 1948.

・電子情報通信学会会誌 Vol.84 No.12 pp.851-868 2001年12月
特集「シャノン理論の遺産と今後の展開」

http://www.ieice.org/jpn/books/kaishikiji/200112/200112-1.html

・計算量爆発
 熱力学では、例えば気体の自由分子1つ1つの運動量から温度、圧力、体積、熱量などを計算しようとする。個別には四則演算の繰り返しにすぎないが、各分子の相互作用(衝突など)があるので計算量が多い。というか、分子数はアボガドロ定数=6.0×10の23乗といった桁になり、現実的には計算することができない。いわゆる計算量爆発である。

 このためにさまざまな数学的工夫がこらされ、統計力学という分野が発達し、情報技術も、これを借りて発展してきた。といった背景を考えてみると、BNの多面性も納得しやすいと思う。

・拡散符号とは
 例えば、8bitの原情報を32bitに拡張したとする。すると、2の32乗、つまり4ギガのベクトルのうち、2の8乗の256点だけが有意で、ほかは使わない。その分布がランダムであれば、伝送路にエラーがあっても簡単に回復できる(ハミング距離が最短の有意な値を選ぶだけ)。

 ここで、8bit×2の65536ベクタを使えば2チャンネル同時に伝送できる。つまり多チャンネル化できる。こうして、原情報のたかだか数倍の長さで、ほとんどエラーのない多重伝送が実現できるのだが、実際には、ランダム符号の復号方法が難しかった。ここにBNを応用する、という話である。


山崎俊一(やまざき しゅんいち)
CD-ROMの標準化やSGMLの標準化作業に参加。ドキュメンテーションとコンピューティングの接点で古くより活躍する。またパーソナル・コンピュータの可能性にいち早く注目し、MacintoshやMS-DOS、Windowsのヘビーユーザーとして、コンピュータ関連雑誌、書籍などで精力的な執筆活動を展開、業界の隠れた仕掛人である。

「Opinion」



Windows Server Insider フォーラム 新着記事
@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

注目のテーマ

Windows Server Insider 記事ランキング

本日 月間