データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載の特別予告編。次回から数回に分けてグラフを利用した可視化の方法を見ていきます。それに先だって、今回は可視化の目的と手法を概観します。「何を見たい」→「どのグラフを使うのか」→「何がうれしいのか」という流れをひととおり確認し、次回以降のお話にスムーズに入れるようにします。
データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載の特別予告編です。第6回(前回)までは、平均値や標準偏差などの値を求めることによって、データを分析する方法を見てきました。特に、前回は、集団の中での位置を知るために、パーセント単位での順位や偏差値などを求めました。
次回からは「可視化による分析」をテーマとして、何回かに分けて幾つかの事例を見ていきます。話の内容や展開がこれまでと少し変わるので、今回は特別予告編として、可視化の目的とそのために利用するグラフの種類などを概観します。次回以降の具体的な内容にスムーズに入れるよう、可視化の方法を大局的に捉えておきましょう。
この連載では、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学びます。
データの収集方法、データの取り扱い、分析の手法などについての考え方を具体例で説明するとともに、身近に使える表計算ソフト(ExcelやGoogleスプレッドシート)を利用した作成例を紹介します。
必要に応じて、Pythonのプログラムや統計ソフトRなどでの作成例にも触れることにします。
数学などの前提知識は特に問いません。肩の力を抜いてぜひとも気楽に読み進めてください。
筆者紹介: IT系ライターの傍ら、非常勤講師として東大で情報・プログラミング関連の授業を、一橋大でAI関連の授業を担当。書道、絵画を経て、ピアノとバイオリンを独学で始めるも学習曲線は常に平坦。趣味の献血は、最近脈拍が多く99回で一旦中断。さらにリターンライダーを目指し、大型二輪免許を取得。1年かけてコツコツと貯金し、ようやくバイクを購入(またもや金欠)。
可視化の方法と分析の流れを追いかけていくにあたって、まずはその全体像を眺めておきましょう。具体的なお話は次回からですが、簡単な事例を取り上げ、可視化と分析を進めていくことになります。内容としては、グラフ作成に関するソフトウェアの機能を網羅するというよりは、可視化の目的やデータをどう捉えるか、グラフをどう読み解くかといった「考え方」が中心となります。目的やデータの種類、形式によってアプローチの方向や可視化の方法は千差万別ですが、1つのケースを追いかけることによって、考え方を知る糸口をつかもうというわけです。
私たちは、データ分析の目的や手法うんぬんの前に、何らかの「問題意識」を持っているはずです。
……などなど、枚挙にいとまがありません(ちなみに、みなさんはご自分の業務でどのような問題意識をお持ちでしょうか)。
「問題意識」は、分析の目的に直結します。そこで、目的に対してどのグラフを使えば、適切な可視化ができるのかを次にまとめておきます。それぞれの目的や可視化の方法ごとに分析の流れを確認しておこうというわけです。次回以降、ケーススタディーを通して、データの扱い方やグラフ作成の手順、分析の観点などを具体的に追いかけます。
Webサイトに広告を出すという業務の例であれば、どのWebサイトに広告を出せば効果的なのかを知りたいといった問題意識が湧き起こってきます(図1の左側)。そのような例では、それぞれのWebサイトでの売上を比較する棒グラフを作成するのが可視化による分析の典型的な方法です。それにより、規模や効果の差を見ることができます(図1の右側に示したデータ分析の効用)。
次回のテーマは棒グラフですが(慣れ親しんだ棒グラフとあなどるなかれ、です。グラフ化に当たっての前処理が必要になったり、意外な落とし穴などもあります……乞うご期待です)、連載では、さらに以下のような事例を何回かに分けて取り扱います。図の見方は同じなので、以降は、簡単に目的や事例など列挙するにとどめます。
横軸を時間、縦軸を売上などの数値として、折れ線グラフを作成すれば、時系列での変化を可視化できます。その際、1つの系列をグラフにするだけでなく、複数の系列を比較することも重要です。例えば、日本のGDPと諸外国のGDPの変化を見れば、諸外国と比べて日本の景気が良くなっているのか悪くなっているのかが分かります。また、賃金と物価の変化を見れば、賃金は上がっていないのに物価だけが上がっているなどの特徴も見られます(もちろん、別のパターンになるかもしれません)。
円グラフも棒グラフや折れ線グラフと同様、小学校の算数などから長年慣れ親しんでいる基本的なグラフです。円グラフは、割合(比率)を可視化するために利用します。ある項目が全体の中でどれぐらいの割合を占めるのかが分かれば、その項目の重要度が分かります。売上に貢献している商品はどれか、故障の原因の大半は何か、といったことが分かり、以降の方針を策定するのに役立てることができます(グラフを作成しただけで安心してしまって、重要度という観点を欠いてしまうこともありがちです。要注意ですね)。
パレート図は、そういった方針の策定に役立てることを強く意識したグラフです。パレート図は、重要度をランク付けするABC分析に使われます。
分布を可視化するために使われるヒストグラムについては、連載の第3回で取り上げました。
また、箱ひげ図については第5回で取り上げました。
いずれも詳細な作成方法は割愛しましたが、分布を可視化することにより、中心の位置を知ったり、データのばらつきを見たり、さらには、外れ値を発見するために使われることについて詳しく説明しました。そのため、次回以降では、そういった話のおさらいもしつつ、ヒストグラムや箱ひげ図の作成手順、グラフの見せ方を変える方法などに重点を置くことにします。
ヒートマップは、値の大きさにより色を変えたグラフです。Excelではグラフ機能にヒートマップは含まれていませんが、条件付き書式を使うと簡単に作成できます。例えば、中古車の在庫状況を可視化し、どの年式のどの価格帯の在庫が豊富なのかを一目で分かるようにしたり、重回帰分析を行うに当たって、相関行列の値が大きい部分を可視化したりするのに使われます(似た項目を重複して使っていないかを調べることができます。重回帰分析はこの連載の終盤で取り扱うので、そちらもお楽しみに)。また、グループ分けしたデータの特徴をつかむのにも便利です(『数学×Pythonプログラミング入門』の第5回で、クラスター分析の結果をヒートマップで可視化する例を紹介しています)。
散布図は項目同士の関係を可視化するのに使われます。例えば、中古車の年式と価格の関係、気温とビールの売上の関係、年齢と給与の関係など、さまざまな関係が可視化できます。(やはりこの連載の後半で取り扱う)相関係数を求めると、関係の強さが数値として表されますが、その場合でも散布図を作っておくと、直線的な関係なのか、指数関数的な関係なのかといったことが直感的に読み取れます(数値だけでは分かりにくいです)。また、散布図も外れ値の発見に使えます。
次回からのお話で、分析の目的に合ったグラフはどれなのか、前処理としてデータをどのように加工すればいいのか、作成されたグラフをどう読み解くのか……といった可視化によるデータ分析の流れや考え方がケーススタディーを通してひととおり学べます。というわけで、次回からの新展開をお楽しみに!
Copyright© Digital Advantage Corp. All Rights Reserved.