データ分析の初歩からステップアップしながら学んでいく連載の第15回。複数の説明変数を基に目的変数の値を予測する重回帰分析について、Excelを使って手を動かしながら学んでいきましょう。カテゴリーなどの数値ではないデータを説明変数として利用する方法や、二次関数などの多項式を基に回帰分析する方法も紹介します。
この連載では、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学びます。
データの収集方法、データの取り扱い、分析の手法などについての考え方を具体例で説明するとともに、身近に使える表計算ソフト(ExcelやGoogleスプレッドシート)を利用した作成例を紹介します。
必要に応じて、Pythonのプログラムや統計ソフトRなどでの作成例にも触れることにします。
数学などの前提知識は特に問いません。肩の力を抜いてぜひとも気楽に読み進めてください。
筆者紹介: IT系ライターの傍ら、非常勤講師として東大で情報・プログラミング関連の授業を、一橋大でAI関連の授業を担当。書道、絵画を経て、ピアノとバイオリンを独学で始めるも学習曲線は常に平坦。趣味の献血は、最近脈拍が多く99回で一旦中断。さらにリターンライダーを目指し、大型二輪免許を取得。1年かけてコツコツと貯金し、ようやくバイクを購入(またもや金欠)。
前回は単回帰分析により、説明変数xの値から目的変数yの値を予測するための回帰式を求めたり、回帰式を基に予測を行ったりしました。
今回は、説明変数が複数ある場合の重回帰分析に取り組みます。図1の例であれば、年式が説明変数x1、走行距離が説明変数x2、排気量が説明変数x3となり、本体価格が目的変数yとなります。図1のデータでは実際のメーカーや車種の名称が使われていますが、本体価格などの値は架空のものです。
図1のデータは、前回のデータと同じものです。このデータを使って重回帰分析を行います。簡単な関数を利用するだけでできますが、説明変数の範囲がやや複雑になるので、「名前」機能などを使って、引数を簡単に指定できるようにします。
年式と本体価格に負の相関がある(年式が大きくなれば価格が下がる=新しい車ほど安い)という結果には違和感がありますね。これには理由があります。前回は排気量に注目して電気自動車(EV)を除外し、本体価格に注目して極端に高価な中古車を外れ値として除外しましたが、年式にも外れ値があるということです(例えば、8行目のアルファロメオは1962年式ですね)。このことについては、後ほど触れるので、取りあえずこのまま重回帰分析を進めましょう。
最後に、二次式以上の回帰式を利用した多項式回帰の例についても紹介します。具体的には、第13回で取り上げた、気温と電気器具によるCO2排出量のデータのようなU字形の分布について回帰分析を行います。重回帰分析のちょっとした応用で簡単にできます。
この記事は、データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載の第15回です。第13回から第15回までは「関係」に注目し、相関や回帰分析などについて見ていきます。前回は、1つの説明変数から目的変数の値を予測する単回帰分析を紹介しました。今回は、複数の説明変数から目的変数の値を予測する重回帰分析の考え方や取り扱いを見ていきます。また、回帰式が二次以上の式になる多項式回帰にも取り組みます。トップページから全体の目次が参照できます。記事冒頭のボタンからぜひメール通知にご登録ください。
今回は以下のようなポイントについて、分析の方法や目の付けどころを見ていきます。
今回は、変数同士の相関係数を全て求めるところからスタートします。サンプルファイルの利用についての説明の後、本編に進みましょう。
本稿では、表計算ソフトを使って手を動かしながら学んでいきます。表計算ソフトMicrosoft Excel用の.xlsxファイルをダウンロードできるようにしています。デスクトップ版のExcelが手元にない場合は、Microsoftアカウントで使える無料のMicrosoft 365オンライン、もしくはGoogleアカウントで使える無料のGoogleスプレッドシート(Google Sheets)をお使いください。Microsoft 365オンラインの場合は、.xlsxファイルをOneDriveにアップロードしてから開いてください。Googleスプレッドシートの場合は、ファイルを共有して参照できるようにします。リンクを開き、メニューから[ファイル]−[コピーを作成]を選択し、Googleドライブにコピーしてお使いください。
今回の例では、年式、走行距離、排気量を説明変数とすることにしていますが、本来はどの項目(変数)を説明変数とするかを選定する必要があります。そのためには、目的変数と何らかの関係がある項目を選ぶ必要があります。変数同士の関係を知るには相関係数を求めたり、散布図を描くというのが定石ですね。そこで、それぞれの相関係数を求めてみましょう。
といっても、幾つかのCORREL関数にいちいち異なる範囲を指定するのはとても面倒です。そこで、図2では、範囲に名前を付けて関数を入力しやすくしています。ただし、ブック全体で同じ名前を使っているので、以下の操作については既に設定済みとなっています(つまり、後述するサンプルファイルでは図2の操作は必要ないので、操作方法の確認だけしておいてください)。
サンプルファイルをこちらからダウンロードして[中古車価格]ワークシートを開いてください。Googleスプレッドシートのサンプルはこちらから開くことができます。メニューから[ファイル]−[コピーを作成]を選択し、Googleドライブにコピーしてお使いください。
実際の作業は不要ですが、事前に設定した際の手順は以下の通りです。データは167行目まで入力されています。
同じ手順で走行という名前をセルE2〜E167に、排気量という名前をセルF2〜F167に、本体価格という名前をセルI6〜I167に付けてあります。このようにして、範囲に名前を付けておくと、数式や関数の引数としてセルアドレスを指定する代わりに名前が使えるようになります。
Excelでは、年式については、セルD1〜D167を選択し、[数式]タブの[定義された名前]グループにある[選択範囲から作成]ボタンをクリックし、[選択範囲から名前を作成]ダイアログボックスで[以下に含まれる範囲から名前を作成]の[上端行]をチェックしても作成できます。上端行が名前となり、その下の範囲が名前で表される範囲となります。
なお、ブック全体ではなく、特定のワークシートで使われる名前にするには[数式]タブの[定義された名前]グループにある[名前の定義]ボタンをクリックし、[新しい名前]ダイアログボックスで、[範囲]のリストからワークシート名を選択して、名前と範囲を指定します。
続いて、図3でCORREL関数を入力します。ここから実際の操作に入るので、サンプルファイルの[中古車価格]ワークシートを開き、図の後に記した箇条書きの手順に従って取り組んでみてください。また、ここから重回帰分析の結果までの作成例は[中古車価格(作成例)]ワークシートに含まれています。
図2と図3の手順については動画も用意してあります。操作方法を一つ一つ丁寧に追いかけたい方はぜひご視聴ください。
では、CORREL関数を入力しましょう。手順は図3に示した通りです。名前機能を使えば、数式が簡潔に入力できることが分かりますね。
手順は図中に示した通りですが、以下に箇条書きにしておきます。
実は、文字列をセル参照に変換するためのINDIRECT関数を使うと、もっと簡単に相関行列が作成できます。手順はセルL3に=CORREL(INDIRECT($K3), INDIRECT(L$2))と入力し、セルO6までコピーするだけです。
INDIRECT関数を使いこなすには、文字列とセル参照の違いを明確に理解しておく必要があります。例えば、「"A4"」という文字列は、単に「"A"」という文字と「"4"」という文字が並んだだけのデータですが、A4というセル参照はセルA4を指し示すものです。例えば、INDIRECT("A4")とすると、「"A4"」という文字列がセル参照A4に変換されます。
=CORREL(INDIRECT($K3), INDIRECT(L$2))であれば、セルK3に入力されている「"年式"」という文字列がINDIRECT関数によって年式という名前(セル参照)に変換されます。同様に、セルL2に入力されている「"年式"」という文字列もやはり年式という名前に変換されます。従って、この式は=CORREL(年式,年式)と入力したのと同じことになります。その式を右のセルM3にコピーすると、引数のL$2の列番号だけが変わりM$2になるので、関数は=CORREL(INDIRECT($K3), INDIRECT(M$2))となります。セルM2に入力されている「"走行"」という文字列がINDIRECT関数によって走行という名前に変換されるので、=CORREL(年式,走行)と入力したのと同じことになります。このようにして、セルO6までの全ての値が求められます。
INDIRECT関数はちょっと難しいですが、サンプルファイルの[INDIRECT関数の利用例]ワークシートに幾つか例を掲載しているので、参考にしてください。ただし、INDIRECT関数が分かりにくいという方や、INDIRECT関数を使うとそのワークシートを使う他の人が理解できないかもしれないという懸念のある方は、図3の手順で示したように入力した方がいいかと思われます。
相関行列のお話が長くなりましたが、これで目的変数と関係のありそうな説明変数の候補が選定できます。
説明変数を選択したり、外れ値の除外を行ったりするために、それぞれの散布図を描いて変数同士の関係を可視化したいところですが、Excelではかなり面倒です(操作そのものは簡単ですが、組み合わせが多いので1つずつ散布図を描いていくのは手間が掛かります)。そこで、Pythonのプログラムを書いて、全ての組み合わせについて散布図を描いてみます。
連載の第12回で紹介したseabornモジュールのpairplot関数を使えば簡単です。サンプルプログラムはこちらから参照できます。リンクをクリックすれば、ブラウザが起動し、Google Colaboratoryで以下(リスト1)のコードが表示されます(Googleアカウントでのログインが必要です)。
!pip install japanize-matplotlib # グラフに日本語を表示するために必要。最初に1回だけ実行すればよい
import pandas as pd
import japanize_matplotlib
import seaborn as sns
df = pd.read_excel("https://github.com/Gessys/data_analysis/raw/main/15a.xlsx",
sheet_name="中古車価格", usecols="A:I")
sns.pairplot(df)
実行結果は図4の通りです。外れ値や分布の歪み、変数同士の関係が可視化できるので、前処理やモデルの選択などに役立てることができます。
では、重回帰分析に取り組みましょう。重回帰分析では、説明変数が複数あるので、回帰式は以下のように表されます。
前回は、中学で学んだ一次関数y=ax+bと同じように単回帰式の定数項を最後に書きましたが、回帰分析では定数項を前に書くのが一般的です。(1)式ではa0が定数項です。係数や変数が複数個あり、a, b, c, ...のようなアルファベットを使っているとかえって煩雑になるので、a0, a1, ...、x1, x2 ...のように添え字を付けて区別します。
単回帰分析は、データの近くを通る(実測値と予測値の差の二乗和が最小になる)直線を描くイメージでしたが、説明変数が2つの重回帰分析は、データの近くを通る平面を描くイメージです。説明変数が3つ以上になると、さらに次元が増えるので図として表すのが難しくなりますが、同様にデータの近くを通る「超平面」を描くようなイメージです。(1)式にはx0の項が書かれていませんが、最初の項がa0x0であり、x0=1であるものと考えられます。
中古車のデータでは、本体価格が目的変数yに当たり、年式が説明変数x1に、走行距離が説明変数x2に、排気量が説明変数x3に当たります。具体的に書けば、以下のようになりますね。
というわけで、説明変数と目的変数を基に、それぞれの係数と定数項を求めてみましょう。そのためにはLINEST関数を使います。以下の例では補正項と呼ばれる値も求めてみます。補正項は、重回帰式の当てはまりの良さや係数の有効性についての検定を行うのに使われます。
手順は図5の後に記した通りです。セルL10に=LINEST(I2:I167,D2:F167,TRUE,TRUE)と入力しましょう。ただし、スピル機能が使えない場合は、あらかじめ結果が求められるセル範囲(セルL10〜O14)を選択しておき、関数を入力した後、入力の終了時に[Ctrl]+[Shift]+[Enter]キーを押してください。以降、この操作を「配列数式を入力する」と呼ぶことにします。
図5の解説にも記してありますが、求められた係数は元の項目と逆の順序になっていることに注意してください。得られた値を(2)の回帰式に当てはめると、以下のようになります。
セルL11〜O14の値が補正項です。これらの補正項を使った検定については、この連載の次に企画している推測統計編で取り扱うことになるので、これ以上は触れませんが、セルL12の値(R2:決定係数)とセルM12の値(SE:標準誤差)は、重回帰式の当てはまりの良さを評価するのに使われるので、少しばかり気にしておいてください(決定係数は後でまた登場します)。
SE(標準誤差)はRMSE(二乗平均平方根誤差)と似ていますが、SEは、実測値と予測値の差の二乗和(セルM14の値)を自由度(セルM13の値)で割ってその√を求めたもので、RMSEは実測値と予測値の差の二乗和をデータの個数(この例では166)で割ってその√を求めたものです。なお、セルM13の自由度は回帰分析での検定に使われる標準誤差の自由度で、データの個数−説明変数の個数−1で求められます(この例なら166−3−1=162)。
説明変数として利用している年式や走行距離、排気量は値の大きさが異なるので、元の値を使って重回帰分析を行っても、係数の大きさをそのままでは比較できません。係数の大きさを比較できるようにするには、元の値を標準化したものを説明変数とするとよいでしょう。
標準化の方法はこの連載の第6回で紹介した通り、元の値から平均値を引き、標準偏差で割るだけです(STANDARDIZE関数を使ってもできます)。標準化を行うと、全体の平均が0、標準偏差が1となるように値が調整されます。
予測に使う値についても、元の値ではなく、標準化した値を指定します。サンプルファイルの[(参考)標準化]ワークシートにその例を含めてあるのでご参照ください。
前項で見た(2)式に年式と走行距離、排気量を代入すれば本体価格が予測できます。(2)式は以下の通りでしたね(再掲)。係数と定数項はセルL10〜N10で求められています。
例えば、セルL17〜N17に入力されている年式、走行距離、排気量を基に本体価格を予測するなら、=O10+N10*L17+M10*M17+L10*N17と入力すれば、171.7315という結果が得られます(セルO18などの空いているセルに入力してみてください)。しかし、係数や定数項を求めずに、予測値だけを求めたいのであれば、TREND関数を使うのが簡単です。セルO17に=TREND(I2:I167,D2:F167,L17:N17,TRUE)と入力しましょう(図6)。
2018年式で走行距離20000km、排気量が1500ccの中古車の価格は171.7315万円と予測できました。取りあえず、これで重回帰分析による係数と定数項の計算、予測の方法については一通り見たことになります。
ここからは、重回帰分析の精度を評価し、より良い予測ができるようにする方法について見ていきましょう。精度を評価するための決定係数やRMSEについては前回の単回帰分析でも簡単に紹介しましたが、今回はそれらに加えて自由度調整済み決定係数の求め方も説明します。
重回帰分析によって求めた回帰式の当てはまりの良さを可視化するには、
のが最も簡単です。サンプルファイルの[中古車価格(散布図)]ワークシートをご覧ください。I列の本体価格と、J列で求めた予測値を散布図にし、決定係数(R2値)も併せて表示します。手順は図7の後に箇条書きで記してあります。
手順は以下の通りです。散布図の位置やサイズ、書式の設定などについては省略しています。
図7を見ると、回帰式の当てはまりは比較的良いように思われます。決定係数は0.646となっていますが、一般に0.5以上あれば当てはまりが良いと考えられます。
ここでは予測値を全てTREND関数で求めているので、毎回、係数と定数項の計算が行われます。従って、係数と定数項が既に求められているのであれば、回帰式に従って予測値を求めた方が速く計算できます。といっても、この程度の規模であれば計算の速さはそれほど変わりません。
決定係数に加えて、RMSE(二乗平均平方根誤差)も求めておきましょう。RMSEを求めるための式は以下の通りでしたね。
yiはI列の値です。
はyの予測値なのでJ列の値に当たりますね。nはサンプルサイズ(データ数)です。従って、図7の表を基にこの式に従ってRMSEが計算できます……が、実は(4)式の一部の、
はLINEST関数の補正項で既に求められています(誤差の二乗和あるいは残差平方和などと呼ばれます)。というわけで、[中古車価格]ワークシートに戻って計算してみましょう(図8)。
手順は図8に示した通りです。以下のように入力しましょう。
セルL20で求めている説明変数の個数はここでは使いません。次のコラムで使うので、ついでに求めておいただけです。
一般に、決定係数は説明変数の数が多くなると値が大きくなります。そのため、説明変数の数が多い場合には、説明変数の数を考慮した自由度調整済み決定係数が使われます。自由度調整済み決定係数は以下の式で求められます。詳細については、こちらなどをご参照ください。
nはサンプルサイズ(データの件数)、kは説明変数の個数を表します。例えば、セルL12に決定係数が求められており、セルK20にデータの件数が、セルL20に説明変数の個数が求められているのであれば、セルK25に=1-(1-L12)*(K20-1)/(K20-L20-1)と入力すれば、自由度調整済み決定係数が求められます(結果は0.6395となります)。[中古車価格(重回帰)]サンプルファイルには(7)式によって計算した結果も含めてあるので、参照してみてください。
ちなみに、(6)式の分母は全変動の二乗和と呼ばれます。この値は回帰変動の二乗和と誤差の二乗和(図8のセルL14とセルM14の和)となっています。分子は誤差の二乗和ですね、従って、空いているセルに「=1-M14/(L14+M14)」と入力しても決定係数が求められます。同様に、自由度調整済み決定係数は「=1-(M14/(K20-L20-1))/((L14+M14)/(K20-1))」でも求められます。
もう一点、補足です。元のデータではRMSEが58.8370となっており、決定係数は0.646035となっています。さらに分析の精度を上げるために、年式が極端に古い中古車と排気量が5000ccを超える特殊な車両を除外すると、RMSEは52.0031と小さくなるのですが、決定係数も0.643666とわずかに小さくなってしまいます(サンプルファイルの[参考(外れ値の除外)]ワークシートに計算例があります)。
誤差が小さくなったのに、決定係数で表される回帰式の当てはまりは悪くなったということでしょうか。実は、これは決定係数を求めるための(6)式で分母(全変動の二乗和)が分子(回帰の変動の二乗和)に比べて小さくなったためです。従って、決定係数が大きいからといって当てはまりがよいとか、決定係数が小さいから当てはまりが悪いと直ちには言えない場合もあることに注意が必要です。このことについては、こちらに詳しい解説があります。
ここまでは、中古車の価格が年式、走行距離、排気量といった値で決まるものとして分析を進めてきました。しかし、輸入車であるか国産車であるかによっても中古車の価格が異なることは十分考えられます(一般に輸入車の方が高価だと考えられますね)。このように、元々のデータには存在しなかった項目(特徴量)を新たに追加することによって、分析の精度を向上させることができる可能性もあります。
では、輸入車であるか、国産車であるかをどのようにして数値で表せばいいでしょうか。輸入車か国産車かというように、2つのカテゴリーに分けられる場合は、輸入車を1とし、国産車を0とする方法が使えます。回帰式の中での、その項をaixiとすると、輸入車の場合、その項の値はai × 1=aiとなり、国産車の場合はai × 0 = 0となりますね。輸入車にはaiだけ価格が上乗せされるというわけです。
サンプルファイルの[中古車価格(特徴量)]ワークシートを使って手順を追いかけてみましょう。ここからの手順については動画も用意してあります。操作方法を一つ一つ丁寧に追いかけたい方はぜひご視聴ください。
まず、輸入車であるかどうかを表す項目を作成しましょう(図9)。UNIQUE関数を使ってメーカーの一覧を作成し、輸入車であれば1を、国産車であれば0を入力した表を作ります。次に、XLOOKUP関数を使ってそれぞれの中古車が輸入車であるか国産車であるかをB列に表示されるようにします。
Excel 2019以前のバージョンでは、以下の手順に登場するUNIQUE関数が使用できません。それらのバージョンをお使いの場合は、Microsoft 365オンラインなどで代用するか、[中古車価格(特徴量作成例)]ワークシートを参照するだけにしてください。
レクサスはトヨタ自動車の高級車ブランドなので、ここでは国産車としておきます。UNIQUE関数を使えば、複数回登場する値を1つにまとめた重複のないリストが作成できます。XLOOKUP関数は、セルA2〜A167のメーカー名をセルN2〜N17から検索し、それに対応するセルO2〜N17の値(0か1の値)を返します。XLOOKUP関数はこの連載の第3回で取り上げましたが、あまりなじみのない方は、こちらで形式を確認しておいてください。
これで新たな特徴量(説明変数)が作成できました。あとはこれまでと同様に重回帰分析を行うだけです。セルアドレスをそのまま使うと見づらいので、あらかじめ以下のような名前を付けてあります(B列の手前に列を挿入すると列番号が変わってしまうので、作成例である[中古車価格(特徴量作成例)]ワークシートの範囲に名前を付けてあります)。
LINEST関数を入力すれば係数や定数項が求められます。ただし、説明変数の範囲が離れた列にあるので、HSTACK関数を使って列をつなぐことにします。セルM21に=LINEST(J2:J167,HSTACK(説明変数1,説明変数2),TRUE,TRUE)と入力してください(図10)。セルJ2〜J167の値は[中古車価格]ワークシートのセルI2〜I167と同じ値なので、本体価格という名前を使って、=LINEST(本体価格,HSTACK(説明変数1,説明変数2),TRUE,TRUE)と入力しても同じ結果になります。
決定係数やRMSEの求め方は既に見た通りです。実際に入力されている式については[中古車価格(特徴量作成例)]をご参照ください。これまで([中古車価格(作成例)]ワークシート)は決定係数が0.6460、RMSEが58.8370でしたが、「輸入車」という特徴量を追加すると、決定係数が0.8163、RMSEが42.3900となり、精度がかなり上がることが分かります。
中古車の本体価格に関係があり、数値で表せない値は他にどのようなものがあるでしょうか。
候補として考えられるのは車両のタイプとミッション(変速機の種類)です。スポーツカーやSUVは高価で、コンパクトカーやワゴンは比較的安価であると思われるので、車両のタイプは説明変数の候補として有力です。しかし、車両のタイプは種類が多く、表が大きくなり過ぎてしまうので、ここでは、分かりやすさを優先させることとし、ミッション(CVT、AT、MTの3種類)を例に取り上げます。一概には言えませんが、CVTは比較的小さな車種で、ATは比較的大きな車種で、MTは比較的古い車種やスポーツカーで採用されています。
車検の期限も関係ありそうですが、ここでは名義尺度の変数の取り扱いを見るので、取り上げていません(車検費用は本体価格には含まれないという理由もありますが)。ただし、車検切れかそうでないかといった分け方もアリかと思われます。車検切れの車両はメンテナンスされずに放置されていた、程度のよくないものであると考えられるからです。車検の期限は数値で表せますが、車検の残りがあるということと、車検切れであるということとは質的に異なるというわけです。実際、車検切れの車両は全て100万円未満です。
前項で見たように、カテゴリーが2つに分けられる場合は一方を0、もう一方を1とすればうまくいきました。カテゴリーが3つ以上の場合には、それぞれのカテゴリーを項目にし、一致する場合には1を、一致しない場合には0を入れます。このようにして作られた変数のことをダミー変数と呼びます(図11)。
実は、カテゴリーがn個の場合、ダミー変数はn−1個だけで十分です。図11では全てのカテゴリーを項目にしていますが、例えばMTという項目がなくても構いません。CVTとATの両方が0であればMTであることが分かるからです。
では、ダミー変数を用意して重回帰分析を行ってみましょう。やるべきことは単純ですが、手作業だと面倒なのでできるだけ自動化しましょう。[中古車価格(ダミー変数)]ワークシートを開いて、どのような数式が入力されているか確認していただくだけで構いません(図12)。
手順は以下の通りです。TRANSPOSE関数は行と列を入れ替えるための関数です。以下の手順でもExcel 2019以前のバージョンではUNIQUE関数が使用できないので、Microsoft 365オンラインなどで代用するか、[中古車価格(ダミー変数)]ワークシートを参照するだけにしてください。
決定係数、RMSEの求め方は既に見た通りです。いずれもごくわずかですが改善されたようです。
説明変数を適切に選択すれば、重回帰分析の精度は良くなります。しかし、説明変数を増やせばいいというものでもありません。似たような説明変数を複数使うと、かえって回帰式の精度が悪くなることがあります。このことを多重共線性と呼びます。
多重共線性を検出するには、説明変数同士に強い相関のある項目がないかを確認します。
また、VIFと呼ばれる値も多重共線性の目安となります。VIFは相関行列の逆行列の対角要素の値となるので、MINVERSE関数を使うと簡単に求められます(図13)。一般に、VIFの値が10以上になると多重共線性が疑われるので、説明変数をどれか1つに減らすことを検討する必要があります。[中古車価格(VIF)]ワークシートに例があるので、参照してみてください。
ここからは多項式回帰のお話に移ります。この連載の第12回で見たように、気温と電気器具によるCO2排出量はU字形の分布になっていました。ということは下に凸な二次関数で近似できそうです。二次関数は以下のような式で表されますね。
実は、LINEST関数を使うと、このような多項式を利用した回帰分析もできます。単にx2の項を用意するだけです。それ以外の方法はこれまでと全く同じなので、図14でサクッと確認しておきましょう。三次以上の関数でも同様です。
サンプルファイルはこちらからダウンロードできます。[気温とCO2排出量]ワークシートを開いて、入力されている数式を確認してください。Googleスプレッドシートのサンプルはこちらから開くことができます。メニューから[ファイル]−[コピーを作成]を選択し、Googleドライブにコピーしてお使いください。
以下の手順については動画も用意してあります。操作方法を一つ一つ丁寧に追いかけたい方はぜひご視聴ください。
手順は以下の通りです。散布図は図7のような実測値と予測値の当てはまりの良さを見るためのものではなく、元のデータの散布図とそれに対する近似曲線を描くためのものです。
多項式近似の近似曲線の次数は、Excelでは6まで、Googleスプレッドシートでは10まで指定できます。次数を上げると、近似曲線がよりデータの近くを通るようになりますが、あまりにも元のデータへの当てはまりが良くなり過ぎて、未知のデータにうまく当てはまらないことがあります(過剰適合や過学習とも呼ばれます)。過学習が起こっているかどうかを調べるには、元のデータを学習用と検証用にランダムに分け(例えば全体の75%を学習用に、25%を検証用にするなど)、学習用のデータで係数と定数項を求め、検証用のデータでの当てはまりを見るという方法があります(ホールドアウト法と呼ばれます)。
今回は、重回帰分析により回帰式の係数と定数項を求めたり、回帰式を利用して予測を行ったりする方法を紹介しました。また、より良い予測ができるように特徴量を作成したり、名義尺度のデータを数値化したりしました。さらに、多重共線性など、重回帰分析における留意点などについても触れました。最後に、気温と電気器具によるCO2排出量のように、U字形の関係になっている場合にも回帰分析を行うために、多項式回帰を利用する方法も紹介しました。
今回のケーススタディでは、データの形式を整えることの重要性にも気付いたと思います。そこで、次回から数回に分けてデータの形式や取り扱いについて整理したいと思います(本来は分析に先だって知っておくべきことなのですが、実際に分析に取り組んでみないとその必要性を実感しにくいので、あえて後回しにしていました)。というわけで、次回もお楽しみに!
関数の利用例については、この記事の中で紹介している通りです。ここでは、今回取り上げた関数の基本的な機能と引数の指定方法だけを示しておきます。
INDIRECT(参照文字列, 参照形式)
LINEST(既知のy, 既知のx, [定数], [補正項])
この関数は係数や定数項などの値を一度に返すので、スピル機能が使えない場合は配列数式として入力する必要がある。係数と定数項の値はan, ... , a2, a1, a0の順に返されることに注意。
TREND(既知のy, 既知のx, 未知のx, [定数])
COUNT(数値1, 数値2, ... , 数値255)
COUNTA(値1, 値2, ... , 値255)
COUNT関数は数値の個数を数え、COUNTA関数は数値や文字列、エラー値など全ての種類のデータの個数を数えるのに使う。
UNIQUE(配列, [列の比較], [単一の値])
Excelデスクトップ版ではExcel 2021以降のバージョンで使用できる。Microsoft 365オンラインやGoogleスプレッドシートでは使用できる。
TRANSPOSE(配列)
HSTACK(配列1, 配列2, ... , 配列254)
HSTACK関数は複数の離れた列を1つの範囲にまとめるのに便利です。複数の配列を縦方向にまとめる(複数の離れた行を1つの範囲にまとめる)にはVSTACK関数が使われます。
MINVERSE(配列)
引数に指定する配列やセル範囲の行数と列数は同じ(正方行列)である必要があります。
Copyright© Digital Advantage Corp. All Rights Reserved.