初歩から応用までステップアップしながら学んでいく『やさしいデータ分析』シリーズ（仮説検定編）の第14回。これまで、13回にわたって、主に2群の差や分散などについて検定の考え方やその手順を見てきました。今回は、3群以上の場合にも対応するために、分散分析の考え方や手順を解説します。
この連載は、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学ぶ『社会人1年生から学ぶ、やさしいデータ分析』シリーズの「記述統計と回帰分析編」「確率分布編」「推測統計（区間推定編）」に続く「推測統計（仮説検定編）」です。
この連載では、観測されたデータを基に、平均に差があるかどうか、分散に差があるかどうかなどを吟味するために、仮説検定を行う方法や適用時の留意点などを説明します。身近に使える表計算ソフトウェア（Microsoft ExcelやGoogleスプレッドシート）を使いながら具体的に事例を見ていきます。
必要に応じて、Pythonのプログラムなどでの作成例にも触れることにしますが、数学などの前提知識は特に問いません。肩の力を抜いてぜひとも気楽に読み進めてください。
筆者紹介： IT系ライターの傍ら、これまで非常勤講師として東大で情報・プログラミング関連の授業を、一橋大でAI関連の授業を担当。かなり前から髪をブリーチしていて金髪先生を自称していたのだけれど、放置しているといい感じのグレーヘアーになってきたので、もはや寄る年波かと思う昨今。最近、成長したなと感じていることは、生まれてこの方どうしても食べられなかった納豆が食べられるようになったこと。唐揚げにはレモンをかけない派。
データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載の推測統計（仮説検定編）、第14回（最終回）です。検定の基本的な考え方から出発し、これまで、平均や分散、相関係数の検定などのパラメトリック検定を学び、さらには、中央値や分布の広がりの検定、前回見た順位相関の検定といったノンパラメトリック検定についても見てきました。
いずれも、比較の対象となっていたのは2つの群でしたが、実際の場面では3群以上の比較が必要になる場合もよくあります。例えば、ダイエットの効果を比較するために、サプリメントの分量を「なし」「サプリA」「サプリB」の3つの群（グループ）に分けるといった場合がそれに当たります。
また、詳細については後述しますが、要因が2つ以上になる場合もあります。例えば、さらに「男性」「女性」といった2つの群に分けて効果を見る、といった場合です（1つ目の要因がサプリの種類、2つ目の要因が性別です）。
まず、要因が1つの例（一元配置分散分析と呼ばれます）について、事例を見ていきましょう。
図1に示したのは架空の事例ですが、生成AIの3つのモデル（軽量モデル、標準モデル、重量モデル）に幾つかの質問を与え、回答が返されるまでの時間を測定したものです。要因は1つ（モデルの違い）で、群は3つです。分散分析を行う際には、一般に、群のことを水準と呼ぶので、以降の考え方や計算の説明では水準と呼ぶことにします。また、要因が1つの分散分析のことを一元配置分散分析と呼びます。分散分析の目的は、主に、平均に差があるかどうかを知るということです（「主に」と言ったのには理由があります。つまり、平均以外についても分析できるからです。後述します）。
分散分析を行うためには、母集団が正規分布に従っていることが前提となっていますが、サンプルサイズが大きい場合や各群のサンプルサイズが同じである場合には比較的頑健である（前提を満たしていなくても、結果に対する悪影響が少ない）と言われています。厳密に進めたい場合には、あらかじめヒストグラムを描いたり、Q-Qプロットを描いたりして、正規性を確認しておくといいでしょう。
さて、ここから分散分析の考え方や手順を見ていきますが、計算の手順がかなり長くなるので、Excelの関数を使って計算するのは現実的ではありません。加えて、詳細な分析を行うには複雑な計算が必要になります。そこで、以下のようにお話を進めます。
さらに、その先では二元配置分散分析にも取り組みます。
では、分散分析の仕組みについて「ざっくりと」お話ししていきましょう。図2を見てください。この段階ではおおまかなイメージをつかむだけで十分です。分散分析では、まず、全体の分散を水準間の分散と水準内の分散に分けます。分散は、言うまでもなく「ばらつき」の大きさを表す値でしたね。水準間の分散が大きければ、平均がばらついているということなので、差があることになります。ただし、水準内での分散が大きいと、その差はあまり信用できません。要するに誤差が大きいということです。逆に、水準間の分散が小さくても、水準内での分散が小さければ、「安定して」差があると考えられます。そこで、水準間の分散を水準内の分散で割って、検定統計量（F値）を求めるというわけです。
上で見たように、分散分析では、分散の比を求めます。従って、その分布はF分布に従うことが分かります。分散の分布がカイ二乗分布に従うことや、F値がカイ二乗値の比であったことを思い出していただければ納得できると思います（この連載の確率分布編第9回でF分布について解説した際にも詳しくお話ししました）。
このような考え方が理解できていれば、実用上それほど困ることはありません。後はできるだけ便利な道具を使うのがお勧めです。これまで、道具としては、一貫してPythonを使っていたので、ここでも簡単なプログラムを紹介しておきます（RやJASPなどの統計ソフトウェアを使うともっと簡単なのですが、インストールの必要があるので、ここでは取り上げません。ただ、今回が最終回ということでもあるので、展望をかねて、後ほど画面だけ掲載します）。
では、帰無仮説と対立仮説を確認してから、サンプルプログラムを見てみましょう。
サンプルプログラムはこちらにあります。リンクを開くとPythonのプログラムが表示されるので、最初のコードセルをクリックし、［Shift］＋［Enter］キーを押してプログラムを実行すると、結果が表示されます。コードの詳細については、リスト1の下のキャプションを参照してください。
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols
# データの読み込み（CSVファイル→pandasデータフレーム）
genai_data = pd.read_csv('https://github.com/Gessys/stat_test/raw/main/genai_data.csv')
# モデルの定義
model = ols('ResponseTime ~ C(Model)', data=genai_data).fit()
# 分散分析表の表示
anova_table = sm.stats.anova_lm(model)
print(anova_table)
結果は図3のようになります。
ここで一つ注意点があります。それは、データの形式に関するものです。図1や図2では、いわゆるワイドフォーマット形式で表されたデータを掲載していますが、statsmodelsモジュールを利用する場合や、多くの統計ソフトウェアを利用する場合には、ロングフォーマット形式のデータを与える必要があります。リスト1ではインターネット上に置いてあるロングフォーマット形式のサンプルデータを読み込んでいますが、その一部を掲載しておきます（図4）。
なお、サンプルファイルには、scipy.statsモジュールのf_oneway関数を使った例と、Pingouinパッケージを使った例も含めてあります。詳細については触れませんが、興味のある方は以降のコードセルに書かれたコメントを参照して、実行してみてください。また、Rでの実行例と、JASPでの実行例については、参考として、以下に画面だけ掲載しておきます。
ここまで、一元配置分散分析の考え方とPythonのプログラムを使った実行を紹介してきましたが、実際にどのような計算が行われているのかについてはブラックボックスでした。このコラムでは、そのあたりを少し掘り下げてみたいと思います。数式が幾つか登場するので、苦手な方はこのコラムを読み飛ばして、次の多重比較に進んでいただいても問題ありません。
最初に、分散分析では、全体の分散を水準間の分散と水準内の分散に分ける、というお話をしました。分かりやすくするために、水準iのj番目のデータをxijと表し、
と表すと、
のように分けて表せます。右辺を計算すると、ちゃんと左辺に一致することが分かりますね（確認してみてください）。
「変動」とは「ズレ」とでもいった意味です。「ズレ」と表すより、「変動」と呼んだ方がかっこいいですよね……というぐらいの気持ちで捉えてもらうと身近に感じられると思います。ただし、「全体の変動」と書いた左辺については、取りあえず、1つのデータについて全体の平均との差を取ったものを式として表しただけなので、全体の変動にするには、全てのデータについて合計する必要があります（水準間の変動や水準内の変動についても同じですね）。
ただ、そのまま合計してしまうと、正と負が相殺されて0になってしまうので、例によって二乗して合計しましょう（平方和を求めるということですね）。iとjの両方が変わるので、rを水準の数、niを水準iのデータの個数とすると、
となります。この式の真ん中の項の添え字にはjがないので、j＝1からniまで合計するということは、枠で囲んだΣについては同じことをni回行うということになります。つまり、niを掛けるだけでいいですね。従って、
となります。あと一息です。変動の平方和を自由度で割ったものが分散です。水準間変動の平方和をSSA、水準内変動の平方和をSSEと表しましょう。SSAの自由度はr−1で、SSEの自由度はn−rとなります（nは全てのデータの個数です）。
「変動」とは、一般的なズレといった意味ですが、文脈から明らかな場合は、水準間変動の平方和SSAを、単に水準間変動と呼んだり、水準内変動の平方和SSBを単に水準内変動と呼ぶこともあります。
従って、水準間の分散MSAは、MSA＝SSA/(r−1)、水準内の分散MSEはMSE＝SSE/(n−r)となり、この比がF値となります。なお、分散分析では、SSAやSSEは、一般に「分散」ではなく平均平方と呼ばれます。
です。後は、このF値に対するF分布の右側確率を求めるだけです。ここまでくれば、Excelでも計算できます。
もちろん、Excelで分散分析を行うのは実用的ではありませんが、手を動かして、実際に計算しながら、仕組みの理解を助けるのが趣旨なので、ぜひ取り組んでみてください。こちらからダウンロードしたサンプルを開き、［一元配置分散分析］ワークシートを開いて試してみてください。Googleスプレッドシートのサンプルはこちらから開くことができます。メニューから［ファイル］−［コピーを作成］を選択し、Googleドライブにコピーしてお使いください。手順は図7の後に箇条書きで記します。
なお、Googleスプレッドシートでは、配列数式を入力するためにARRAYFORMULA関数を使う必要があります。例えば、セルG11には「=ARRAYFORMULA(SUMSQ(B4:D23-G4))」と入力します。セルG10、セルI9についても同様です。詳細については、作成例のワークシートを参照してください。
一元配置分散分析によって、3群以上の平均の差を検定すると、全体として差があるかどうかは分かりますが、どの群とどの群に差があるかまでは分かりません。というわけで、群ごとの比較を行いましょう。ただし、2群を抜きだしてt検定を行うと、第一種の過誤を犯す確率が増えてしまいます。そのため、p値や有意水準を調整するなどの方法が採られます。例えば、最もシンプルなボンフェローニ（Bonferroni）の方法では、ペアごとにt検定を行い、p値に水準数を掛けて調整を行います。例えば、軽量モデルと標準モデルとでt検定（対応のない両側検定、非等分散）を行うとp＝0.206となりますが、水準数の3を掛けてp＝0.2063 × 3＝0.6189（有意差なし）とします。同様に、標準モデルと重量モデルの場合は、p＝0.0512 × 3＝0.1536（有意差なし）となり、軽量モデルと重量モデルだけp＝0.0021×3＝0.0063（1％有意）となります。ただし、ボンフェローニ法はかなり厳格なので（平たく言えば、有意になりにくいので）、各群のサンプルサイズや分散が極端に異ならない場合は、比較的バランスの良い結果が得られるテューキー法（TukeyHSD法）が一般によく使われます。ボンフェローニ法であればExcelでもできますが、TukeyHSD法では、近似計算が必要になるため、Excelでやるのは極めて面倒です。そこで、statsmodelsモジュールを利用してPythonで実行する方法を紹介します。
# TukeyHSD法による多重比較
from statsmodels.stats.multicomp import pairwise_tukeyhsd
# TukeyHSD法
tukey_result = pairwise_tukeyhsd(endog=genai_data['ResponseTime'], groups=genai_data['Model'], alpha=0.05)
# 結果の表示
print(tukey_result)
結果は図8の通りです。
一元配置分散分析だけでもうおなかいっぱいという感じかもしれませんね。少し休憩を挟んで、二元配置分散分析にも取り組みましょう。ただし、ここでは、事例と考え方、Pythonのプログラムをサクッと紹介するにとどめます。
二元配置分散分析では、要因が2つになります。やはり架空の事例で見てみましょう。
生成AIのモデルに与える質問には、単に「〜とは」と解説を求めるものや、「〜はなぜ？」と理由を問うもの、「〜を作ってください」といった文字通り生成を求めるものなどがあります。しかし、ここでは話を簡単にするために、質問を「簡単なもの（easy）」と「難しいもの（difficult）」に分けて、生成AIに与えたものとしましょう。データは以下のような形式になります。
図を見ると、要因は、モデルと質問の難易度の2つであることが分かります。従って「二要因」となるわけです。また、それぞれの水準はモデルがlight／standard／heavyの3水準、質問の難易度がeasy／difficultの2水準となっています。
全体像を捉えるために、モデルごとに平均の応答時間を折れ線グラフでプロットしてみます（図10）。このグラフを作成するためのコードもサンプルファイルに含めてあるので、「二元配置分散分析」というタイトルの下のコードセルを実行すれば表示できます。
モデルによる応答時間の差と質問の難易度による応答時間の差は主効果と呼ばれます。つまり、ある要因における水準間の差ということですね。一方、質問の難易度とモデルごとの応答時間には何らかの関係がありそうです。その関係のことを交互作用と呼びます。ある要因の特定の水準によって、別の要因での各水準の差に違いが現れる、といったことです。図10のような交差したような（交差しそうな）グラフになることから直感的に理解できると思います。
二元配置分散分析では、これらの効果があるかどうかを検定するというわけです。続けて見てみましょう。さすがにこれをExcelでやるのはほとんどムリです（分析ツールアドインである程度はできますが、かなり制約が多いので、あまり実用的ではありません）。statsmodelsを使ったプログラムは以下のようになります。
# 二元配置分散分析
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols
# データの読み込み（CSVファイル→pandasデータフレーム）
genai_data2 = pd.read_csv('https://github.com/Gessys/stat_test/raw/main/genai_data2.csv')
# モデルの定義
formula = 'ResponseTime ~ C(Model) * C(Question)'
model = ols(formula, data=genai_data2).fit()
# 分散分析表の表示
anova_table = sm.stats.anova_lm(model)
print(anova_table)
formulaの指定では、交互作用を「:」で表すので、主効果と交互作用が全て含まれることを想定した場合は、'ResponseTime ~ C(Model) + C(Question) + C(Model) : C(Question)'となりますが、上のように「*」を使って主効果と交互作用が含まれることを略記できます。
上の例は、各水準のサンプルサイズが同じ場合に適した方法です。各水準のサンプルサイズが異なり、交互作用を想定しない場合はanova_lm関数の引数にtyp=2を指定した方法が適しています。また、主効果や交互作用の調整を行う場合にはtyp=3を指定します。各水準のサンプルサイズが同じ場合はtypにどの値を指定しても同じ結果になります（既定の設定はtyp=1です）。詳細については今回の「超入門」のレベルをはるかに超えているので、ここでは触れませんが、いつか機会があれば……。
実行結果は図11の通りです。
分散分析の結果を見ると、図10のグラフで考えたことがほぼ検証されたといえます。主効果については平均的にモデルによる差や質問の難易度による差はあるといえますが、交互作用が見られるので、水準によってその効果が異なることが考えられます。例えば、図10のグラフを見ても分かるように、軽量モデルでは確かに難しい質問に対して時間がかかっていますが、重量モデルでは質問の難易度による差はなさそうです。また、質問が難しい場合は、どのモデルにも応答時間に差がないようにも見えます。
水準ごとの効果を詳細に見るには、さらに多重比較を行う必要があります。が、これについては、サンプルファイルでの提供にとどめることにします。二元配置分散分析の次のコードセルに、多重比較の例を含めてあるので、ぜひ実行してみてください。結果だけ要約して掲載しておきます。
となっています（上で想像した通りです）。
最後に、分散分析を行うに当たって、必要なサンプルサイズの見積もり方法を紹介します。記事では考え方や手順の後に掲載していますが、そもそも、調査や実験を行う前に、決めておくべきことです（毎回言っていることですが）。今回は、実用性を重視して、G*Powerを使った方法だけを紹介します。
まず、効果量Cohen's fの見積もりが必要です。一元配置分散分析から見ていきましょう。まず、以下の式でη2（ηは「イータ」と読みます）の値を見積もります。
例えば、水準間の平方和が3.5、全体の平方和が21と見積もられるのであれば、
となります。先行研究などで、すでにη2が報告されているようであれば、その値を使う方がいいでしょう。次に、Cohen's fを以下の式で求めます。上の値を代入してみます。
後は、この値をG*Powerで入力するだけです。以下のように指定します。
メニューバーから［Tests］−［Means］−［Many Groups: ANOVA: One-way(one independent variable)］を選択しても同じ設定になります。有意水準をα＝0.05、検出力を1−β＝0.8とする場合、さらに以下のように続けます。最初に見た一元配置分散分析では群が3つだったことを思い出してください。
以上の操作で［Total sample size］に結果が表示されます（図12）。
この例では、[Total sample size]は51となりますが、この値は各群の値ではなく、全体のサンプルサイズです。従って、各群は51/3＝17件ということになります。余裕を見て20件ぐらいのサンプルを収集するといいでしょう。
二元以上の分散分析の場合、以下の式で示されるη2pの値を、想定される主効果や交互作用について求めます。SSeffectはその効果の平方和、SSerrorは誤差の平方和です。一元配置は全体の平方和に対する比でしたが、こちらは、他の要因を除外した平方和に対する比になっています。
それぞれの要因について求めたηp2を上と同様の式でCohen's fに変換します。例えば、今回の例で、SSModel＝3, SSQuestion ＝ 19, SSModel:Question ＝ 7, SSerror ＝ 24と見積もられるのであれば、以下のようになります（計算結果だけを掲載します）。ただし、実際には全ての値を求める必要はありません。例えば、Modelの主効果を検出の目的とするのであれば、その値だけで構いません。
G*Powerでの指定は以下の通りです。モデル（Model）の主効果を例に見てみます。
メニューバーから［Tests］−［Means］−［Many Groups: ANOVA: Main effects and interactions(two or more independent variables)］を選択しても同じ設定になります。有意水準をα＝0.05、検出力を1−β＝0.8とする場合、さらに以下のように続けます。
［Total sample size］には81と表示されるはずです。他の要因についても同様に計算できます。なお、交互作用については、水準数が3×2なので
［Numerator df］には、(3−1)× (2−1)＝2を指定します。それぞれ計算してみると、
となります。検出したい効果がModelの主効果であれば、全体のサンプルサイズは81、交互作用を検出したいのであれば、全体のサンプルサイズは37となります。
今回は、分散分析超入門と題して、一元配置分散分析と二元配置分散分析について、基本的な考え方と計算の手順を解説しました。分散分析は、これまでのさまざまな検定以上に実際の場面でよく使われます。まだまだ話し足りないことはあるのですが、推測統計（仮説検定編）も最終回となりました。長らくのご愛読ありがとうございました。
……といっても、これで終わりではなく、このシリーズとしては、次にベイズ統計編を予定しています。現在、各回で取り上げる内容を鋭意検討中ですが、理論や数式ゴリゴリといった内容ではなく、実用性を重視し、母数の推定方法（平均やその信用区間の推定など）、モデル選択の方法（例えば、これまでのt検定に代わるベイズ統計の手法など）を中心に、初歩の初歩から、手を動かしながら学べるものとする予定です。ベイズ統計編もどうぞお楽しみに！
