[データ分析]円グラフやパレート図で「重要度」を可視化 〜 どの割合が本当に多いのか?やさしいデータ分析

データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載の第9回。グラフを利用して「重要度」を可視化する方法と、それに関連するさまざまな考え方を追いかけます。具体的には円グラフやパレート図、積み上げ棒グラフなどを使いますが、データの取り扱い、結果の見方などに関して、考慮すべき点や見落としがちな点について、ケーススタディーを通して見ていきます。

» 2023年10月12日 05時00分 公開
[羽山博]
「やさしいデータ分析」のインデックス

連載目次

連載:

『社会人1年生から学ぶ、やさしいデータ分析』

社会人1年生から学ぶ、やさしいデータ分析

 この連載では、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学びます。
 データの収集方法、データの取り扱い、分析の手法などについての考え方を具体例で説明するとともに、身近に使える表計算ソフト(ExcelやGoogleスプレッドシート)を利用した作成例を紹介します。
 必要に応じて、Pythonのプログラムや統計ソフトRなどでの作成例にも触れることにします。
 数学などの前提知識は特に問いません。肩の力を抜いてぜひとも気楽に読み進めてください。

羽山博 羽山博

筆者紹介: IT系ライターの傍ら、非常勤講師として東大で情報・プログラミング関連の授業を、一橋大でAI関連の授業を担当。書道、絵画を経て、ピアノとバイオリンを独学で始めるも学習曲線は常に平坦。趣味の献血は、最近脈拍が多く99回で一旦中断。さらにリターンライダーを目指し、大型二輪免許を取得。1年かけてコツコツと貯金し、ようやくバイクを購入(またもや金欠)。


 読者の皆さんは、割合(比率)を可視化するのに円グラフを使うことは百も承知だと思います。しかし、割合が何らかの目的に対する「重要度」を反映した値であることについては、あまり意識されないことも多いようです。今回は、その「重要度」に焦点を当て、可視化による比較の方法や分析の例、落とし穴などについて見ていきます。


AI博士

 「比率」と「割合」は、同じような意味ですが、「比率」は項目同士の値の比較という意味合いの言葉です。例えば、AとBの比率は1:1.5といった感じの使い方です。一方の「割合」は、全体に対してその項目の占める大きさといった意味合いです。Aの割合は全体の30%、Bの割合は全体の45%といった感じです。


 図1の上側は、2020年〜2022年の電動キックボードの事故件数を相手別にグラフ化したものです。このグラフをパッと見て、どのような印象を受けるでしょうか。また、下側の図は、2022年の不正アクセスによる被害の認知件数をパレート図と呼ばれるグラフにしたものです。被害を減らすためにはどこから手を付けていけばいいいでしょうか。

重要度を可視化する 図1 重要度を可視化する(落とし穴あり!)
上側の図は、一見すると、対自転車の事故件数が多く、四輪との事故件数がそれに続くように思われる。また、単独事故はそれほど多くないように見える。はたして、電動キックボードと自転車の事故は本当に多いのだろうか。また、下側の図を基に、不正アクセスの被害を防ぐための対策に優先順位を付けるにはどうすればいいだろうか。

 出典となるデータは、上側が警察庁の交通事故分析資料から閲覧できる「令和4年における交通事故の発生状況について」のPDFファイルです。下側は、総務省のページに掲載されている[別紙]のPDFファイルです。

 今回は重要度を可視化するというテーマで、幾つかの例を見ていきます。図1に関する問いの答えを探りながら、事故や故障、不良品などを激減させたり、売り上げを伸ばしたりするためには何に注目すればいいかを見てきます。また、重要度が社会情勢や個人の嗜好(しこう)によってどのように変化しているのかを考えます。ぜひ無料会員登録して全文をお読みください。


 この記事は、データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載の第9回です。第7回の棒グラフから、前回の折れ線グラフ、今回の円グラフ/パレート図、ヒストグラム、ヒートマップ、第12回の散布図まで、1つずつ可視化の基礎を学んでいきます。これらグラフの目的と効用などについて、特別予告編で簡単に整理していますので、事前に確認しておくとより理解が深まるでしょう。可視化シリーズを続けて読んでグラフの使い分けをマスターしたい方は、次回を見逃さないために記事冒頭のボタンからメール通知に登録するのがお勧めです。

この記事で学べること

 今回は以下のようなポイントについて、分析の方法や落とし穴を見ていきます。

  • 円グラフに潜む落とし穴 …… 3Dグラフにすると割合が違って見える?
  • 重要な項目を見つけるには …… トラブルの原因は9割が×××?
  • 規模と割合の変化を可視化する …… 好まれるスポーツの変遷を見てみよう!

 まずは、小学生の頃から(幼稚園や保育園の頃から?)使い慣れている円グラフからスタートします。棒グラフや折れ線グラフと同様、円グラフもよく使われるにもかかわらず、グラフを作っただけで安心してしまい、どう読み解き、どう活用するかを考えられることが少ないように思われます。戦略や方針を立てる上でとても役に立つツールなので、いま一度その扱い方をしっかりと身に付けておきましょう! では、サンプルファイルの利用についての説明の後、本編に進みましょう。

サンプルファイルの利用について

 本稿では、表計算ソフトを使って手を動かしながら学んでいきます。表計算ソフトMicrosoft Excel用の.xlsxファイルをダウンロードできるようにしています。デスクトップ版のExcelが手元にない場合は、Microsoftアカウントがあれば使える無料のMicrosoft 365オンライン、もしくはGoogleアカウントがあれば使える無料のGoogleスプレッドシート(Google Sheets)をお使いください。Microsoft 365オンラインの場合は、.xlsxファイルをOneDriveにアップロードしてから開いてください。Googleスプレッドシートの場合は、.xlsxファイルをGoogleドライブにアップロードしてから開いた上で[ファイル]メニューの[Google スプレッドシートとして保存]を実行してください(Googleスプレッドシート独自の機能を使っている場合は、ファイルを共有して参照できるようにします。その場合は、該当する箇所で使い方を記します)。

3Dグラフに潜む落とし穴 〜 円グラフで割合を可視化してみると?

 答えから先に言うと、図1の上側に示した3D円グラフは、割合を見誤ってしまう危険性のある不適切なグラフです。元データは以下の通りです(図2)。このデータを基に、ウオーミングアップがてら、まずは2Dの円グラフを作成してみましょう。後で2Dグラフと3Dグラフを見比べてみることにします。

キックボードの事故件数データ 図2 電動キックボードの事故件数(相手別)のデータ
このデータを基に2D円グラフを作成してみよう。円グラフでは割合が可視化されるが、利用するデータは件数だけでよい(割合をあらかじめ求めておく必要はない)。

 サンプルファイルをこちらからダウンロードし、[相手別事故件数]ワークシートを開いて取り組んでみてください。Googleスプレッドシートの場合はこちらのサンプルファイルを開いて、メニューから[ファイル]−[コピーを作成]を選択し、Googleドライブにコピーしてお使いください。

 作成されたグラフは以下の通りです。操作の手順については、図3の後に箇条書きで示しておきます。なお、動画の解説も用意してあるので、操作を一つ一つ追いかけたい方はぜひご視聴ください。

動画1 Excelでの円グラフの作り方


キックボードの事故件数 図3 電動キックボードの事故件数を円グラフにして割合を見る
実際の割合も分かるように、グラフ内にデータラベルを表示した。当然のことながら、円の面積がそれぞれの割合を反映している。一目で、最も多い事故の相手が分かる。

 手順は以下の通りです。

  • セルA3〜セルB8をドラッグして選択する
  • [挿入]タブを開き、[円またはドーナツグラフの挿入]−[円]を選択する
    • Googleスプレッドシートの場合はメニューバーから[挿入]−[グラフ]を選択し、[グラフの種類]のリストから[円グラフ]を選択する

 これだけで円グラフが作成されます。Googleスプレッドシートでは「四輪」や「自転車」などの分類名と割合が自動的に表示されますが、Excelの場合は単に円と凡例が表示されるだけです。そこで、割合を円グラフの中に表示するようにしましょう。

  • データ系列を右クリックし、[データラベルの追加]を選択する
  • 表示されたデータラベルを右クリックし、[データラベルの書式設定]を選択する
  • [データラベルの書式設定]ウィンドウで[パーセンテージ]のチェックマークをオンにし、[値]のチェックマークをオフにする
  • [ラベルの位置]の[内部外側]ボタンをクリックしてオンにしておく

 [値]のチェックマークを先にオフにしてしまうと、何も選択されていない状態になるので、せっかく表示されたデータラベルが消えてしまいます。先に[パーセンテージ]のチェックマークをオンにしましょう。また、[ラベルの位置]は、標準では[自動調整]になっていますが、この例では、円グラフの表示が少し小さくなります。[内部外側]にした方が円グラフが大きく表示され、見やすくなります。タイトルを変更したり、データラベルのフォントサイズやフォントの色を変更したりして表示を整えれば完成です。

 では、2D円グラフと3D円グラフを見比べてみましょう(図4)。3D円グラフだと、割合が大きく違って見えますね。

2D円グラフと3D円グラフ 図4 2D円グラフと3D円グラフを見比べてみる
対四輪は42%、対自転車は19%となっており、対自転車の事故が対四輪の半分以下であるにもかかわらず、3D円グラフにすると、手前にある対自転車がかなり大きな割合になっているように見える。また、単独事故は24%と、対自転車よりも多いのに、3D円グラフではかなり小さく見える。なお、違いが顕著に分かるようにするため、右側の3D円グラフでは奥行きを深くして遠近感を強調してある(もちろん、標準の設定でも手前の項目が大きく見えてしまう)。

 「この記事で学べること」で最初に触れたように、3Dグラフにすると割合が違って見えてきます。シンプルな円グラフだとパッとしないので、見栄えをよくしたいというのは人情ですが、3Dグラフにすると、手前にある項目が大きく見えてしまうのです。これは、円グラフに限らず、3Dグラフ全般に見られる罠(わな)なので注意が必要です。そもそも、必然性のない3Dグラフの利用は避けた方がいいでしょう。


AI博士

 もっとも、件数そのものが少ない(全体で74件)ので、図3の割合が電動キックボードの事故に関する特質を表していると断言することはできません。なお、2023年7月に道路交通法が改正され、16歳以上であれば免許なしで電動キックボードを公道で運転できるようになり、時速6km/h以下であれば歩道の走行も可能になりました。自転車や歩行者を巻き込んだ事故の増加が懸念されています(最近、歩道上での事故も大きく報道されていました)。なお、図2のデータは警察庁に報告された件数なので、対四輪の事故以外については報告そのものが上がっていない可能性も大きいと思われます。


コラム グラフデータの範囲を間違って変なグラフができてしまったら

 円グラフに限らず、どの種類グラフでも、グラフデータの範囲を間違えると、明らかにおかしいグラフ(図5)ができてしまうことがあります。

見るからにおかしなグラフ 図5 グラフデータの範囲を間違ったグラフ
合計がグラフ化するための系列に含まれてしまっている。何も考えずに円グラフを作成するとこうなってしまう。思ったようなグラフにならなかった場合に、適切に修正する方法も身に付けておこう。

 間違ったグラフができる原因の多くは、グラフデータの範囲を指定していないことがほとんどです。Excelでは、特に範囲を指定しないとアクティブセル領域(アクティブセルを含み、空白のセルで囲まれた範囲)がグラフ化や並べ替えなどの範囲と見なされます。そのため、本来はグラフデータに含めるべきでなかった合計の値などがグラフに含まれてしまうことがあるというわけです。

 たいていの人は、グラフが表示された時点で間違いに気づくのですが、重要なのはそこからのリカバリーです。そこで、わざと間違ったグラフを作成し、それを正しいグラフにするための手順を見ていくことにしましょう。以下に箇条書きで操作を示します。

  • セルA3〜セルB8のいずれかのセルをクリックする(範囲を選択しない)
  • [挿入]タブを開き、[円またはドーナツグラフの挿入]−[円]を選択する
    • Googleスプレッドシートの場合は、メニューバーから[挿入]−[グラフ]を選択し、[グラフの種類]のリストから[円グラフ]を選択する

 セルA3〜B8のいずれかのセルをクリックすると、セルA3B9がアクティブセル領域になり、グラフデータに合計が含まれてしまいます。図5のようなグラフになったのはそのためです。

 グラフデータの範囲は以下の操作で修正できます。

  • グラフをクリックして選択する
  • セルB9の右下に表示されているハンドル(小さな■)をセルB8までドラッグする

 Googleスプレッドシートの場合は以下のように操作します。

  • グラフを右クリックして[データ範囲]を選択する
  • [グラフエディタ]の画面で[データ範囲]を「A3:B8」に修正する
    • 右端の[データ範囲を選択]ボタン(田の形のボタン)をクリックして、セルA3B8をドラッグしてもよい

 逆に、アクティブセル領域がどの範囲であるかを理解していると、(元のデータに合計行が含まれていない場合など)いちいち範囲指定をしなくても適切なグラフを作成したり、並べ替えを行ったりすることができます。特に、対象となる範囲が大きい場合には効率のよい操作ができます。「アクティブセル領域」は、Excelを使いこなすのに必要不可欠なキーワードです。


コラム グラフを構成する要素

 グラフにはさまざまな要素が含まれているので、書式などの設定項目が多岐にわたります。何回かの試行錯誤の後、ようやく目的の設定項目にたどりついたという経験をお持ちの方も多いと思います。確実に設定項目にたどりつくには、グラフの各要素の名前を知っておくのが近道です。図6でそれぞれの要素と名前を確認しておきましょう。

グラフに含まれる要素 図6 グラフに含まれる要素
上から順に、グラフタイトルは文字通りグラフ全体のタイトル、グラフエリアはグラフの全ての要素を含む領域、プロットエリアはグラフが描かれる領域、データ系列はデータの並び(引き出し線が多いと見づらくなるので、2つしか描いていないが、一連のデータの並びのこと)、データラベルは各データの名前や値、凡例はデータ系列の名前。

 上に示した要素以外にも、棒グラフや折れ線グラフでは縦(数値)軸横(項目)軸などがあります。マウスポインタを位置付けると、ポップヒントに名前が表示されるので、一度確認しておくといいでしょう。また、それぞれの要素を右クリックすると[グラフタイトルの書式設定]や[グラフエリアの書式設定]などのように、ショートカットメニューにそれぞれの要素の書式設定を行うための項目が表示されます。

 なお、データ系列やデータラベルなど、複数の要素から成り立っているものは、クリックして選択すると、それらの要素全てが選択でき、もう一度クリックすると、クリックした要素だけが選択できます。円グラフの1つの扇型の部分や、棒グラフの1つの棒の色を変えたいときにこの操作を使います。


重要度をランク付けする 〜 パレート図を使ってABC分析を行う

 全体に対する個々の項目の割合や比率を表現するためのグラフとしては、円グラフだけでなくパレート図も使えます。パレート図は割合の大きい項目から順に棒グラフを作成し、それらの値の累計を折れ線グラフにしたものです。図7のデータは、不正アクセスが行われた後にどのような被害があったか、届け出などにより2022年に認知された件数をまとめたものです。出典は総務省のページに掲載されている[別紙]のPDFファイルです。ただし、これ以外に表面化していない例もあるかもしれません。

不正アクセス後の被害 図7 不正アクセスによる被害の認知件数
不正アクセスによって、どのような被害があったかをまとめた表。一見して不正送金等が多いのは分かるが、パレート図を使って、件数をランク付けしてみよう。

 このデータを基に図7のようなパレート図を作ってみましょう。サンプルファイルをこちらからダウンロードし、[不正アクセス]ワークシートを開いて取り組んでみてください。手順は、図7の後に箇条書きで記しておきます。また、これについても動画で解説しているので、操作を一つ一つ追いかけたい方はぜひご視聴ください。

動画2 Excelでのパレート図の作り方


 なお、Googleスプレッドシートの場合はこちらのサンプルファイルを開いて、メニューから[ファイル]−[コピーを作成]を選択し、Googleドライブにコピーしてお使いください。

不正アクセスによる被害をパレート図にしたもの 図7 不正アクセスによる被害の認知件数をパレート図にする
棒グラフはそれぞれの件数を降順に並べたもの。自動的に値の降順に並べ替えられたグラフになるので、元のデータを降順に並べ替えておく必要はない。折れ線グラフは件数の累計。右側の第2軸が全体に占める割合を表す。

 手順は以下の通りです。

  • セルA3B12を選択する
  • [挿入]タブを開き、[統計グラフの挿入]−[パレート図]を選択する

 これだけでパレート図が作成できます。あとはタイトルを変更するだけです。ただし、パレート図では、セルの内容をグラフタイトルに表示することはできないので、タイトルは自分で入力する必要があります。

 一方、Googleスプレッドシートにはパレート図を作成する機能がありません。そこで、件数の降順に並べ替えを行った後、件数の累計を基に割合を累計し、棒グラフと折れ線グラフの複合グラフを作成する必要があります。

  • 並べ替える
    • セルA3B12を選択する
    • [Tab]キーを押し、アクティブセルをセルB3に位置付けておく
    • メニューバーから[データ]−[範囲を並べ替え]−[列Bを基準に降順で範囲を並べ替え]を選択する
  • 累計を求めてパーセント表示にする
    • セルA3に「累計」と入力する
    • セルC4に「=B4/B13」と入力する
    • セルC5に「=C4+B5/$B$13」と入力する
    • セルC5をセルC12までコピーする
    • セルC4C12を選択し、ツールバーの[表示形式をパーセントに設定]ボタンをクリックする
  • 複合グラフを利用してパレート図を作る
    • セルA3C12を選択する
    • メニューバーから[挿入]−[グラフ]を選択し、[グラフの種類]のリストから[複合グラフ]を選択する
    • 系列(棒グラフの部分でよい)を右クリックし、[系列]−[累計]を選択
    • [グラフエディタ]の[カスタマイズ]画面で、[系列]の[軸]のリストから[右軸]を選択する

 Googleスプレッドシートでは、棒グラフの間隔を調整できないので、棒と棒の間にスペースが空いてしまいますが、図7と同様のグラフが作成できます。

 さて、作成されたパレート図をどのように分析していけばいいでしょうか。図9のように、第2軸の70%の位置から左に向かって線を引き、折れ線とぶつかったところで線を下に引きます。さらに、第2軸の90%の位置から左に向かって線を引き、折れ線とぶつかったところで線を下に引きます。すると、横軸が3つの部分に分けられます。

不正アクセスに関するABC分析 図9 不正アクセスの被害に関するABC分析
ここでは全体の70%までをクラスAとし、90%までをクラスBとした。クラスAは「インターネットバンキングでの不正送金」と「その他」、クラスBは「インターネットショッピングでの不正購入」と「メールの盗み見等の情報の不正入手」となっている。クラスCは右側の残りの部分。

 3つの部分の左側をクラスAとし、中央をクラスBとします。右側はクラスCです。

 クラスAは全体の70%を占める重要な項目と考えられます。つまり、この部分にある項目に対策を施せば、不正アクセスによる被害の70%は(理屈としては)防げるというわけです。

 次にクラスBです。さらに、クラスBへの対策を施せば90%の問題が解決することになります。

 クラスCは残りの10%です。全体に占める割合が小さいので放置しておいていいかというと、そういうわけでもありません。例えば、件数は少なくても、行政や医療などに関連するWebサイトの改ざんやサーバーデータの消去などがあれば、国民生活への影響は甚大です。件数の多さは必ずしも重要度の大きさであるとは限りませんが、重要度を測る一つの指標にはなります。


AI博士

 この例では「その他」の件数がかなり多く、その部分の実態がつかめないので、ひとまず「その他」は除外してABC分析を行ってもいいかと思われます(もちろん、「その他」にどのような事例があるのかを把握しておく必要はありますが)。ただし、実際に「その他」を除外して、分析を行ってもほぼ同じ結果になります。


 このように全体をA、B、Cという3つのクラスに分けて分析していくことをABC分析と呼び、さまざまな分野で活用されています。例えば、機械などの故障の原因についてのABC分析を行えば、対応すべき問題に優先順位を付けるのに役立ちます。また、商品の売れ行きについてのABC分析を行えば、主力商品として推していくべきものはどれか、あるいは、テコ入れすべき商品はどれかといった戦略の策定に役立ちます。


AI博士

 一般に、Amazonなどのネットショッピングでは、取り扱う商品の種類が多いので、クラスCの項目が極めて多くなります。そのように右側に「尾」を引いている部分を「ロングテール」と呼びます。ロングテールの商品は重要度が低いというわけではなく、少量でも幅広く売れ続けるので、安定した売り上げに貢献します(クラスAの主力商品のみに依存していると、その商品の人気が落ちたときの影響が大きくなります)。ただし、取り扱う商品が多い分、いかに効率よく在庫管理を行うかがカギとなります。


規模と割合の変化を可視化する 〜 積み上げ縦棒グラフの利用

 上の例では、2022年のデータを基にパレート図を作成し、ABC分析を行いました。しかし、時系列での変化も気になりますね。そこで、不正アクセスによる被害がどのように変化しているかを見てみましょう。実は、出典のPDFファイルには過去5年間のデータが掲載されています(図10)。

不正アクセスの被害(時系列) 図10 不正アクセスによる被害の認知件数(2018年〜2022年)
このデータを基に、積み上げ縦棒グラフを作り、件数の変化を可視化してみよう。グラフを作成したら、どのようなことが言えそうか、分析してみよう。

 このデータを基に、不正アクセスによる被害の認知件数がどのように変化しているかを可視化してみましょう。円グラフでは時系列での変化が可視化できないので、積み上げ縦棒グラフを使います。図11のようなパレート図を作ってみましょう。上で使ったサンプルファイルの[不正アクセス(5年間)]ワークシートを開いて取り組んでみてください。手順は、図11の後に箇条書きで記しておきます。これについても動画で解説しているので、操作の手順を一つ一つ追いかけたい方はぜひご視聴ください。

動画3 Excelでの積み上げ縦棒グラフの作り方


不正アクセスの被害(積み上げ縦棒グラフにする) 図11 不正アクセスによる被害の認知件数を積み上げ縦棒グラフにする(2018年〜2022年)
件数全体としては、年による波があるが、その要因の大部分は「インターネットバンキングでの不正送金等」のように見える。2018年に多かった「暗号資産交換業者等での不正送信」は、2019年以降少なくなっている。「インターネットオークションの不正操作」も減少している。

 積み上げ縦棒グラフの作成手順は以下の通りです。

  • セルA4F12を選択する
    • 3行目を選択しないのは「年」の値(2018や2019など)がグラフに含まれないようにするため
  • [挿入]タブを開き、[縦棒グラフ/横棒グラフの挿入]−[積み上げ縦棒]を選択する
  • [グラフのデザイン]タブを開き、[行/列の切り替え]ボタンをクリックする
  • [グラフのデザイン]タブを開き、[データの選択]ボタンをクリックする
  • [横(項目)軸ラベル]の[編集]ボタンをクリックする
  • [軸ラベルの範囲]ボックスをクリックし、セルB3F3を選択する

 [OK]ボタンをクリックしてダイアログボックスを閉じておいてください。グラフのサイズが小さいと棒の部分が密集して見づらいかもしれないので、グラフをドラッグして見やすいサイズに変更しておきましょう。図11のように各項目を結ぶ細い線(斜めの線)を表示するには以下の操作を行います。

  • [グラフのデザイン]タブを開き、[グラフ要素を追加]−[線]−[区分線]を選択する

 あとはタイトルを指定するだけです。

 Googleスプレッドシートでは、以下のように操作します。

  • セルA3F12を選択する

メニューバーから[挿入]−[グラフ]を選択し、[グラフの種類]のリストから[積み上げ縦棒グラフ]を選択する

  • [グラフエディタ]の[設定]画面で以下に示すチェックボックスを操作する(すでに設定されていれば操作は不要)
    • [行と列を切り替える]をオンにする
    • [列Aを見出しとして使用]をオンにする
    • [行3をラベルとして使用]をオンにする

 Googleスプレッドシートでは、Excelの区分線に対応する機能がないので、タイトルを設定すれば完成です。

 作成されたグラフからどのようなことが読み取れそうでしょうか。年によって件数に波がありますが、その大部分は「インターネットバンキングでの不正送金等」によるものと思われます。詳細については背景となるできごとを精査しないと分かりませんが、不正送金に対応してセキュリティを強化しても、また新たな手口が登場し、またそれに対応し……という「いたちごっこ」になっているのかも知れません。いずれにしても、2019年以降は「インターネットショッピングでの不正購入」と合わせて、お金にかかわる不正行為が大半を占めているようです。

 少し細かくなりますが、「知人になりすましての情報発信」「暗号資産交換業者等での不正送信」「インターネットオークションの不正操作」については、2019年以降、実数も割合も減っているようです。これらについてはグラフよりも数値を見た方が分かりやすいかもしれません。背景としては、不正アクセスへの対策強化が考えられます。特に、暗号資産については、2018年1月のコインチェック事件以来、取引所のセキュリティ対策だけでなく、ユーザー側でも二要素認証を徹底するなど、意識の向上があったのではないかと思われます。ちなみに、暗号資産の口座数は2018年から2021年にかけて倍以上に増えています(日本暗号資産取引業協会の統計情報(PDFファイル)による)。とはいえ「対策が強化されたのではないか」というのはあくまで仮説です。さらなる分析を行い、対策などに役立てていくには、実際にどのような出来事があり、どのような対策が取られたのかを詳しく調べる必要があります。逆に、実際に何らかの対策を行った後、トラブルが減少したというグラフが提示できれば、対策の有効性に対する説得力が高まります。

割合の変化だけを可視化するには 〜 100%積み上げ縦棒グラフの利用

 今回は、事故や不正アクセスなどちょっと負の側面のデータばかりだったので、多少は楽しいデータも取り扱ってみましょう(といっても雰囲気を明るくすることが目的ではないのですが)。図12のデータは、総務省の社会生活基本調査のデータから、普段行うスポーツの人数のうち、球技のみを取り出して作成した表です。

普段行うスポーツ 図12 普段行うスポーツの種類と人数(2011年〜2021年)
調査は5年ごとに行われる。このデータは最近の3回分。スポーツの種類は他にもあるが、ここでは3回の調査に共通して現れる球技だけを取り出した。人数は10歳以上の19万人のサンプルから計算された推定値で、そのスポーツを年に1日以上行った人の数を合計したもの。このデータを基に人気のスポーツの変化を可視化してみよう。なお、表には参考として球技以外の「その他合計」と「総合計」も含めてある。

 この表を基に、それぞれの球技をたしなむ人の割合がどのように変化しているかを可視化してみましょう。ここでは、上で見た積み上げ縦棒グラフではなく、割合の変化だけを見るために100%積み上げ縦棒グラフにします。積み上げ縦棒グラフであれば、球技人口の減少も可視化できますが、全体の人数(N列)も減少しているので、球技人口の減少が強調されすぎるからです(全体に対する球技人口の割合を求めてグラフ化すれば意味のあるものになります)。

 サンプルファイルをこちらからダウンロードし、[普段行う球技]ワークシートを開いて取り組んでみてください。手順は図13の後に箇条書きで記しておきます。ただし、積み上げ縦棒グラフとほとんど同じなので、動画での解説は省略します。Googleスプレッドシートの場合はこちらのサンプルファイルを開いて、メニューから[ファイル]−[コピーを作成]を選択し、Googleドライブにコピーしてお使いください。

普段行うスポーツの変化 図13 普段行うスポーツの割合の変化(2011年〜2021年)
ボウリングの割合が減少し続けている。特に2016年から2021年にかけての減少が顕著。一方、野球、バドミントン、ゴルフなどの割合がわずかに増加しているように見える。

 100%積み上げ縦棒グラフの作成手順は以下の通りです。

  • セルB3K6を選択する
    • A行目を選択しないのは「年」の値(2011や2016など)がグラフに含まれないようにするため
  • [挿入]タブを開き、[縦棒グラフ/横棒グラフの挿入]−[100%積み上げ縦棒]を選択する
  • [グラフのデザイン]タブを開き、[行/列の切り替え]ボタンをクリックする
  • [グラフのデザイン]タブを開き、[データの選択]ボタンをクリックする
  • [横(項目)軸ラベル]の[編集]ボタンをクリックする
  • [軸ラベルの範囲]ボックスをクリックし、セルA4A6を選択する
  • [OK]ボタンをクリックして、ダイアログボックスを閉じる
  • [グラフのデザイン]タブを開き、[グラフ要素を追加]−[線]−[区分線]を選択する

 Googleスプレッドシートでは、以下のように操作します。

  • セルA3K6を選択する
    • メニューバーから[挿入]−[グラフ]を選択し、[グラフの種類]のリストから[100%積み上げ縦棒グラフ]を選択する
  • [グラフエディタ]の[設定]画面で以下に示すチェックボックスを操作する(すでに設定されていれば操作は不要)
    • [行と列を切り替える]をオフにする
    • [行3を見出しとして使用]をオンにする
    • [列Aをラベルとして使用]をオンにする

 ボウリングが減少しているのは、ボウリングの斜陽化が原因なのかもしれませんが、2021年の減少については新型コロナ禍の影響も大きいのでしょう。野球、バドミントン、ゴルフなど、屋外でできる球技に関しては、2016年から2021年かけては増加の傾向にあります。もちろん、スポーツそのものの人気の変化もあると思われます。バスケットボールやサッカーなどは着実に増加しています。

 残念ながら、1970年代の第一次ボウリングブームの終焉(しゅうえん)の後、1990年代にやや盛り上がりを見せたものの、ボウリング場の数は年々減少しています(日本ボウリング協会の報道資料(PDFファイル)による)。にもかかわらず、ボウリングの割合がそれほど小さくない(サッカーより多い!)のを意外に思われる方もおられるかもしれません。実は、社会生活基本調査のデータを見ると、ボウリングの平均行動日数はかなり少なくなっています。つまり、年に数回しかしない人が大多数だというわけです。とすると、「普段行うスポーツ」というのはかなり語弊がありますね。そこで、2021年のデータについて平均行動日数が週1日未満の場合と週1日以上の場合に分けて人数を集計し、どのスポーツが「普段行う」ものなのか「たまに行う」ものなのか、違いを可視化してみたいと思います。データは図14の通りです。

普段行うスポーツを頻度で集計 図14 普段行うスポーツの種類と人数(2021年頻度別)
2021年の調査項目には、高齢者向けに考案された「グラウンドゴルフ」も含まれている。合計の人数が図12と一致しない理由は不明だが、恐らく頻度について未回答のデータがあったものと思われる。このデータを基に割合を比較するグラフを作成してみよう。

 この表を基に、それぞれの球技を行う頻度を比較するグラフを作成してみましょう。図13のような100%積み上げ縦棒グラフを使っても構いませんが、時系列での比較ではないので、100%積み上げ横棒グラフの方がよさそうです。先ほどと同じファイルの[ふだん行う球技(頻度)]ワークシートを開いて取り組んでみてください。手順は図15の後に箇条書きで記しておきます。こちらも手順は積み上げ縦棒グラフや100%積み上げ縦棒グラフとほとんど同じなので、動画での解説は省略します。

普段行うスポーツの変化 図15 普段行うスポーツの割合の頻度別比較(2021年)
グラフの右端を見ればボウリングを行う人のほとんどが週1回未満であることが可視化できる(週1回以上の人はボウリングを行ったと回答した人のわずか3.8%)。バドミントンも休日に公園で遊んだり、気分転換に行う程度かもしれない。バレーボール、バスケットボール、サッカー、テニス、ゴルフなどでは、週1回以上の人がかなり多い。

 100%積み上げ横棒グラフの作成手順は以下の通りです。

  • セルA3L5を選択する
  • [挿入]タブを開き、[縦棒グラフ/横棒グラフの挿入]−[100%積み上げ横棒]を選択する
  • [グラフのデザイン]タブを開き、[行/列の切り替え]ボタンをクリックする
  • [グラフのデザイン]タブで[グラフ要素を追加]−[線]−[区分線]を選択する

 Googleスプレッドシートでは、以下のように操作します。

  • セルA3L5を選択する
    • メニューバーから[挿入]−[グラフ]を選択し、[グラフの種類]のリストから[100%積み上げ横棒グラフ]を選択する
  • [グラフエディタ]の[設定]画面で以下に示すチェックボックスを操作する(すでに設定されていれば操作は不要)
    • [行と列を切り替える]をオフにする
    • [行3を見出しとして使用]をオンにする
    • [列Aをラベルとして使用]をオンにする

 出典のデータには年齢層別の人数も含まれています。バレーボール、バスケットボール、サッカー、テニスは、若年層の人数が多くなっており、週1回以上の割合が大きいのは学校での部活に参加しているためと考えられます。ゴルフに関しては、いわゆるゴルフ中毒に陥り、練習場に行かずにはいられない人が多いのかもしれません。ゴルフの年齢層は全体的にかなり高めです。

 なお、図15のような割合(比率)の比較には、ドーナツグラフも使えます。サンプルファイルにはドーナツグラフの作成例も含めてあるので、ぜひご参照ください。ただし、Googleスプレッドシートのドーナツグラフでは複数の輪を同時に表示することができないので、サンプルファイルには含めてありません。


 今回は、円グラフを使った割合の可視化と落とし穴の確認から始め、パレート図によるABC分析、積み上げ縦棒グラフによる割合の変化などについて見てきました。割合の大きさが必ずしも重要度の高さであるとは限りませんが、方針の立案などに役立つ、一つの手がかりになることは確かです。

 次回は、集団の全体像を見るためのケーススタディーを通して、ヒストグラムや箱ひげ図について、作成方法や設定の変更方法を詳しく見ていきます。次回も、落とし穴や意外に知られていない機能なども紹介します。どうぞお楽しみに!

「やさしいデータ分析」のインデックス

やさしいデータ分析

Copyright© Digital Advantage Corp. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。