あの「モンティ・ホール問題」で当選率33%が66%になる理由が分かり、生き上手になれる「ベイズの定理」の基礎知識:「AI」エンジニアになるための「基礎数学」再入門(10)
AIに欠かせない数学を、プログラミング言語Pythonを使って高校生の学習範囲から学び直す連載。今回は「ベイズの定理」について分かりやすい図を交えて解説します。
AIに欠かせない数学を、プログラミング言語Pythonを使って高校生の学習範囲から学び直す本連載『「AI」エンジニアになるための「基礎数学」再入門』。前回は「確率・確率分布」について学びました。今回のテーマである「ベイズの定理」は、そのもう少し高度な内容といえます。ぜひ、前回記事も併せてお読みください。
ベイズってどんな人?
トーマス・ベイズ(Thomas Bayes)は1702〜1761年に実在したイギリスの人物です。彼の肩書は異色で、牧師でありながら数学者でもあります。そんな彼は「神の存在を方程式で説明できる」と主張したそうです。ベイズは牧師として活動する傍ら研究を重ね、後に解説する「ベイズの定理」を含む「ベイズ理論」を考案したという偉業を成しています。
ところが、その偉業はベイズの死後である1764年にRプライス(生命保険の創始者の一人)によって発見されました。その後、偉大な物理学者であるラプラスが理論を整理したことによって発展を遂げることになります。そして、現在では多くの科学技術の礎となりわれわれの生活を支えています。
なお、ベイズの生涯については情報が少なく、いまだ多くの謎が残されています。それにもかかわらず、彼の歴史に登場する関連人物は偉大な人物ばかりです。ミステリアスで魅力にあふれる人物といえるでしょう。
余談ですが、「ベイズ理論」を支持する者を「ベイジアン」と呼ぶことがあります。つまり、今回の記事を読むことで、読者の皆さんはベイジアンへの第一歩を踏み出すことになります。
データサイエンティストが避けては通れない「ベイズ理論」とは
ベイズ理論全体を知ろうとすると、範囲が非常に広く、今回の記事には収まり切りません。そこで今回は導入部分だけにとどめます。
一般的な統計学(頻度論)は「客観確率」を扱います。一方、ベイズ理論は「主観確率」を扱います。ここでは端的に「一般的な統計学とは真逆の考え方をする」と捉えてください。
頻度論 | ベイズ理論 | |
---|---|---|
原因 | 固定されたものとして考える | 変動するものとして考える |
結果 | 変動するものとして考える | 固定されたものとして考える |
「ベイズ理論」は一般とは真逆の考え方をすることから暗い歴史があります。フィッシャーやネイマンといった「頻度論」の派閥から弾圧されたのです。
しかし、研究が進むにつれてその有用性に対する理解は徐々に広まっていきました。また、ベイズ理論を応用したアルゴリズムは計算コストが高価なことが多く、計算技術の発達に伴って応用ケースが増えていきました。
以上のことから、現代におけるベイズ理論は一般的なものになり、広く応用されています。古くは、ラプラスが土星の質量をベイズ理論から見積もりました。また、第二次世界大戦時には暗号解読にも応用されていたそうです。
最近では、スパムメール診断(ベイジアンフィルター)や医療診断などに応用されています。この他にもわれわれの身近にはベイズ理論が応用された結果がたくさんあります。機械学習のアルゴリズムも同様です。それ故、ベイズ理論を学ぶことはデータサイエンティストにとって避けては通れない道なのです。
上手に生きていく上でとても大切な「ベイズの定理」とは
「ベイズの定理」はベイズ理論を構成する基本定理です。「ベイズ理論=ベイズの定理」ではないことに注意しましょう。基本原理なので、「ベイズの定理を理解すること」は「ベイズ理論を理解すること」への第一歩です。以降では「ベイズの定理」について詳しく解説します。
ベイズの定理を端的に言い表すと、これを使えば「過去にさかのぼって原因を探ることができる」といったものです。われわれが目の当たりにするものは全て結果です。しかし、その結果が引き起こされた理由(原因)を考えることは上手に生きていく上でとても大切なことです。
このように役に立つベイズの定理を、次章では理解に必要な材料とともに詳しく解説します。
ベイズの定理の基本
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 綱引きに蛇口当てゲーム?! 楽しく学ぶベイズフィルターの仕組み
残念ながら、メールの世界では迷惑メールの送信を根絶することがまだできていません。そのため、受信時に必要なメールとそうでないメールを判別する必要があります。今回は単語の頻出度合いから必要なメールかどうかを判別する「ベイズフィルター」(ベイジアンフィルター)の動作理論と実装上の工夫を2回に分けて解説します(編集部) - Apache Mahoutの使い方:テキスト分類のアルゴリズムを活用する
機械学習は古くからある情報処理のアルゴリズムの総称です。これをApache Hadoop上で実施する際のフレームワークの1つがApache Mahoutです。本稿ではApache Mahoutを使った機械学習の初歩を学んでいきます。 - 10万点以上の点群位置合わせ問題を2分で解く 金沢大学の広瀬修氏がアルゴリズムを考案
金沢大学の助教である広瀬修氏は、点群位置合わせ問題を解くための新たなアルゴリズムを考案した。点群位置合わせ問題をベイズ統計学に基づいて定式化することで、最高精度の解を最小計算時間で見つけることに成功したとしている。