[データ分析]グラフの種類と使い分け 〜 データ可視化入門【特別予告編】やさしいデータ分析

データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載の特別予告編。次回から数回に分けてグラフを利用した可視化の方法を見ていきます。それに先だって、今回は可視化の目的と手法を概観します。「何を見たい」→「どのグラフを使うのか」→「何がうれしいのか」という流れをひととおり確認し、次回以降のお話にスムーズに入れるようにします。

» 2023年08月17日 05時00分 公開
[羽山博]
「やさしいデータ分析」のインデックス

連載目次

 データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載の特別予告編です。第6回(前回)までは、平均値や標準偏差などの値を求めることによって、データを分析する方法を見てきました。特に、前回は、集団の中での位置を知るために、パーセント単位での順位や偏差値などを求めました。

 次回からは「可視化による分析」をテーマとして、何回かに分けて幾つかの事例を見ていきます。話の内容や展開がこれまでと少し変わるので、今回は特別予告編として、可視化の目的とそのために利用するグラフの種類などを概観します。次回以降の具体的な内容にスムーズに入れるよう、可視化の方法を大局的に捉えておきましょう。

連載:

『社会人1年生から学ぶ、やさしいデータ分析』

社会人1年生から学ぶ、やさしいデータ分析

 この連載では、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学びます。
 データの収集方法、データの取り扱い、分析の手法などについての考え方を具体例で説明するとともに、身近に使える表計算ソフト(ExcelやGoogleスプレッドシート)を利用した作成例を紹介します。
 必要に応じて、Pythonのプログラムや統計ソフトRなどでの作成例にも触れることにします。
 数学などの前提知識は特に問いません。肩の力を抜いてぜひとも気楽に読み進めてください。

羽山博 羽山博

筆者紹介: IT系ライターの傍ら、非常勤講師として東大で情報・プログラミング関連の授業を、一橋大でAI関連の授業を担当。書道、絵画を経て、ピアノとバイオリンを独学で始めるも学習曲線は常に平坦。趣味の献血は、最近脈拍が多く99回で一旦中断。さらにリターンライダーを目指し、大型二輪免許を取得。1年かけてコツコツと貯金し、ようやくバイクを購入(またもや金欠)。


問題意識と分析の目的、可視化の方法について 〜 ケーススタディーを中心に

 可視化の方法と分析の流れを追いかけていくにあたって、まずはその全体像を眺めておきましょう。具体的なお話は次回からですが、簡単な事例を取り上げ、可視化と分析を進めていくことになります。内容としては、グラフ作成に関するソフトウェアの機能を網羅するというよりは、可視化の目的やデータをどう捉えるか、グラフをどう読み解くかといった「考え方」が中心となります。目的やデータの種類、形式によってアプローチの方向や可視化の方法は千差万別ですが、1つのケースを追いかけることによって、考え方を知る糸口をつかもうというわけです。

 私たちは、データ分析の目的や手法うんぬんの前に、何らかの「問題意識」を持っているはずです。

  • どちらのWebサイトに広告を出せば効果的なのか
  • ここ数年、営業成績が下がってきているのではないか
  • 不良品が発生する原因は何か
  • どうすれば不良品を減らせるのか
  • 商品の価格に最も影響があるのはどのような要因か
  • 商品の評価に極端な賛否両論があるのではないか
  • すぐにお客様に提供できる商品はどれか

……などなど、枚挙にいとまがありません(ちなみに、みなさんはご自分の業務でどのような問題意識をお持ちでしょうか)。

 「問題意識」は、分析の目的に直結します。そこで、目的に対してどのグラフを使えば、適切な可視化ができるのかを次にまとめておきます。それぞれの目的や可視化の方法ごとに分析の流れを確認しておこうというわけです。次回以降、ケーススタディーを通して、データの扱い方やグラフ作成の手順、分析の観点などを具体的に追いかけます。

規模や効果の差を比較するには棒グラフ

 Webサイトに広告を出すという業務の例であれば、どのWebサイトに広告を出せば効果的なのかを知りたいといった問題意識が湧き起こってきます(図1の左側)。そのような例では、それぞれのWebサイトでの売上を比較する棒グラフを作成するのが可視化による分析の典型的な方法です。それにより、規模や効果の差を見ることができます(図1の右側に示したデータ分析の効用)。

規模や効果を比較する 図1 規模や効果の差を可視化したいときには棒グラフが適している
図の左上にある「比較」というのは、分析の目的を端的に表したキーワード。広告の効果を比較したい場合は、それぞれのWebサイトでの売上を比較すればよい。そのためには棒グラフを使うのが定石。なお、中央のグラフのアイコンとして、Excelの[挿入]タブの[グラフ]グループの中で選択すべきボタンを示してある(以降も同様)。

 次回のテーマは棒グラフですが(慣れ親しんだ棒グラフとあなどるなかれ、です。グラフ化に当たっての前処理が必要になったり、意外な落とし穴などもあります……乞うご期待です)、連載では、さらに以下のような事例を何回かに分けて取り扱います。図の見方は同じなので、以降は、簡単に目的や事例など列挙するにとどめます。

時系列での変化を見るには折れ線グラフ

 横軸を時間、縦軸を売上などの数値として、折れ線グラフを作成すれば、時系列での変化を可視化できます。その際、1つの系列をグラフにするだけでなく、複数の系列を比較することも重要です。例えば、日本のGDPと諸外国のGDPの変化を見れば、諸外国と比べて日本の景気が良くなっているのか悪くなっているのかが分かります。また、賃金と物価の変化を見れば、賃金は上がっていないのに物価だけが上がっているなどの特徴も見られます(もちろん、別のパターンになるかもしれません)。

変化を可視化する 図2 時系列での変化を可視化したいときには折れ線グラフが適している
折れ線グラフでは変化を見ることができる。売上や収入、株価の分析などによく使われる。単純にデータを折れ線グラフにするだけでなく、比較することにより目的のデータの特徴を明確にしたり、移動平均を求めることによりトレンドを見ることもできる(これも次回以降のお楽しみです)。

全体の中での割合 = 重要度を見るには円グラフ/パレート図

 円グラフも棒グラフや折れ線グラフと同様、小学校の算数などから長年慣れ親しんでいる基本的なグラフです。円グラフは、割合(比率)を可視化するために利用します。ある項目が全体の中でどれぐらいの割合を占めるのかが分かれば、その項目の重要度が分かります。売上に貢献している商品はどれか、故障の原因の大半は何か、といったことが分かり、以降の方針を策定するのに役立てることができます(グラフを作成しただけで安心してしまって、重要度という観点を欠いてしまうこともありがちです。要注意ですね)。

 パレート図は、そういった方針の策定に役立てることを強く意識したグラフです。パレート図は、重要度をランク付けするABC分析に使われます。

割合(比率)を可視化する 図3 割合(比率)を基に重要度を可視化したいときには円グラフやパレート図が適している
円グラフでは割合(比率)を見ることができる。政党の支持率、商品のシェア、不良品の原因の割合などを分析するのに使われる。
パレート図では、上位70%を占める項目や上位90%を占める項目などを可視化できる。それにより重要度をA、B、Cの3つのランクに分け、方針を策定するのに役立てることができる(ABC分析と呼ばれる)。

中心の位置や広がり(分布)を見るにはヒストグラム

 分布を可視化するために使われるヒストグラムについては、連載の第3回で取り上げました。

 また、箱ひげ図については第5回で取り上げました。

 いずれも詳細な作成方法は割愛しましたが、分布を可視化することにより、中心の位置を知ったり、データのばらつきを見たり、さらには、外れ値を発見するために使われることについて詳しく説明しました。そのため、次回以降では、そういった話のおさらいもしつつ、ヒストグラムや箱ひげ図の作成手順、グラフの見せ方を変える方法などに重点を置くことにします。

分布を可視化する 図4 分布を可視化したいときにはヒストグラムや箱ひげ図が適している
ヒストグラムでは中心の位置や集中の度合い、データの広がりが分かる。
箱ひげ図では大半のデータがどの範囲にあるかが分かる。いずれも、外れ値を見つけるのに役立つ。

どの位置の値が大きいかを見るにはヒートマップ

 ヒートマップは、値の大きさにより色を変えたグラフです。Excelではグラフ機能にヒートマップは含まれていませんが、条件付き書式を使うと簡単に作成できます。例えば、中古車の在庫状況を可視化し、どの年式のどの価格帯の在庫が豊富なのかを一目で分かるようにしたり、重回帰分析を行うに当たって、相関行列の値が大きい部分を可視化したりするのに使われます(似た項目を重複して使っていないかを調べることができます。重回帰分析はこの連載の終盤で取り扱うので、そちらもお楽しみに)。また、グループ分けしたデータの特徴をつかむのにも便利です(『数学×Pythonプログラミング入門』の第5回で、クラスター分析の結果をヒートマップで可視化する例を紹介しています)。

粗密を可視化する 図5 どの位置の値が大きいかを可視化するにはヒートマップが適している
条件付き書式を利用すれば、値の大きさによってセルを色分けできる。値の大きな位置(や小さな位置)が可視化できるので、どこにデータが集中しているのかを調べたり、項目同士の関係の強さを見たりすることができる。中央のアイコンはExcelのボタンではなく、ヒートマップのイメージを示したもの。

項目同士の関係を見るには散布図

 散布図は項目同士の関係を可視化するのに使われます。例えば、中古車の年式と価格の関係、気温とビールの売上の関係、年齢と給与の関係など、さまざまな関係が可視化できます。(やはりこの連載の後半で取り扱う)相関係数を求めると、関係の強さが数値として表されますが、その場合でも散布図を作っておくと、直線的な関係なのか、指数関数的な関係なのかといったことが直感的に読み取れます(数値だけでは分かりにくいです)。また、散布図も外れ値の発見に使えます。

関係を可視化する 図6 項目同士の関係を可視化するには散布図が適している
散布図は、横軸(X)に当たる項目の値と縦軸(Y)に当たる項目の値の交わった位置に「点」をプロットしたグラフ。例えば、X2018(年)で、Y100(万円)なら(2018, 100)の位置に点を表示する。多くの点がプロットされると、その形から関係が分かる(例えば、右上がりになっていれば、一方が増えれば他方も増える)。極端に離れた位置に点があれば、外れ値と考えられる。


 次回からのお話で、分析の目的に合ったグラフはどれなのか、前処理としてデータをどのように加工すればいいのか、作成されたグラフをどう読み解くのか……といった可視化によるデータ分析の流れや考え方がケーススタディーを通してひととおり学べます。というわけで、次回からの新展開をお楽しみに!

「やさしいデータ分析」のインデックス

やさしいデータ分析

Copyright© Digital Advantage Corp. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。