高校生に負けない! 社会人が学ぶべき、やさしいデータ分析:やさしいデータ分析
データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載のスタート。今回は、なぜデータ分析の重要性が高まっているか、ビジネスに生かすために何を学ぶべきかを概観した後、連載の全体像を紹介します。
連載:
この連載では、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学びます。
データの収集方法、データの取り扱い、分析の手法などについての考え方を具体例で説明するとともに、身近に使える表計算ソフト(ExcelやGoogleスプレッドシート)を利用した作成例を紹介します。
必要に応じて、Pythonのプログラムや統計ソフトRなどでの作成例にも触れることにします。
数学などの前提知識は特に問いません。肩の力を抜いてぜひとも気楽に読み進めてください。
筆者紹介: IT系ライター、大学教員(非常勤)。書道、絵画を経て、ピアノとバイオリンを独学で始めるも学習曲線は常に平坦。趣味の献血は、最近脈拍が多く99回で一旦中断。さらにリターンライダーを目指し、大型二輪免許を取得。1年かけてコツコツと貯金し、ようやくバイクを購入(またもや金欠)。
もはや中学・高校生も学んでいるデータ分析&データサイエンス
ここ数年、データ分析やデータサイエンスという言葉をさまざまな場面で目にすることが多くなりました。しかし、そもそも有史以前から人類は生活を向上させるために、星の動きを見たり、川の水量の増減を見たりして、種まきの時期を知ったり、災害の予測を行ってきました。そういった活動もいわばデータ分析と考えられます。さまざまな現象を数字で表したり、数学の言葉で書くようになったのもそう新しい話ではなく、今から5000〜6000年以前には、かなり高度な数学も成立していたようです*1。
*1 『代数的構造』(遠山啓著, ちくま文庫, 2019)
その後、17世紀以降、確率や統計の研究が進み、現在使われている手法がほぼ確立しています。ただ、そういった歴史をひもといたり、専門的な手法を知らなかったりしても、私たちはデータ分析がどのようなものか直感的に理解していると思います。また、最近になってデータ分析の重要性が高まっていることを肌で感じている方も多いと思います。
ちなみに、原稿執筆時(2023年4月4日)に、Amazonの書籍を「データ分析」というキーワードと刊行年で検索し、その件数をグラフ化してみたところ図1のようになりました。2023年は105件でしたが、まだ1年の約1/4しか過ぎていないので、105×4=420件としてグラフにしてあります(年々、刊行点数が増えているので、さらに増えるかもしれません。あるいは、飽和状態で頭打ちになるかもしれませんが)。
図1 データ分析に関する書籍の刊行点数(2023年は予測値)
データ分析関連の書籍の刊行点数が指数関数的に増えていることが分かる。なお、検索結果には高校野球のデータや入試問題の分析なども含まれているので、データ分析の手法に関係する書籍は2020年までは少なかった。ちなみに、このようなグラフを作成して「データ分析」の注目度を可視化することは(私たちが日常的に行っている)データ分析の一つ。
データ分析やデータサイエンスの重要性は、学校教育にも大きな影響を与えています。表1に示した内容は、新しい学習指導要領に取り入れられたデータ分析とデータサイエンスに関する内容です。この学習指導要領に基づく教育は、中学では2021年から全面実施、高校では2022年からすでに全面実施となっています。いかがでしょう。それ以前に高校を卒業した方には驚きを隠せないほどの大きな変化ではないでしょうか。
教科・科目 | 学年 | 項目 | 取り扱う主な内容(太字はこの連載でも取り扱う) |
---|---|---|---|
数学 | 中1 | データの活用 | データの分布、ヒストグラム、相対度数、コンピュータを利用した表やグラフの作成 |
数学 | 中2 | データの活用 | 四分位範囲、箱ひげ図、場合の数、確率 |
数学 | 中3 | データの活用 | 標本調査、母集団の傾向の推定 |
数学I | 高1 | データの分析 | 分散、標準偏差、散布図、相関係数 |
数学B | 高2 | 統計的な推測 | 確率変数と確率分布(二項分布・正規分布)、区間推定、仮説検定、社会生活での数理的な考察、問題解決 |
情報I | 高1 | 情報通信ネットワークとデータの活用 | オープンデータ、データの形式、量的データ、質的データ、尺度、可視化、単回帰分析、Webスクレイピング、テキストマイニング |
情報II | 高2または高3 | 情報とデータサイエンス | データの整形、データクリーニング、重回帰分析、主成分分析、分類、クラスタリング、ニューラルネットワーク、画像認識 |
学習指導要領、高等学校情報科「情報I」教員研修用教材、高等学校情報科「情報II」教員研修用教材を基に作成。各教科のうちデータ分析やデータサイエンスに関係する項目だけを抜き出して整理してみた。数学Bと情報IIは選択科目。高校の学年は目安。
表1に掲載した内容について全くなじみがないという方も心配には及びません。この連載で少しずつ丁寧に説明していくので、目の前に立ちはだかる高い壁と感じるよりも「読み進めれば、これだけのことが身に付けられるんだ」と期待していただくといいかと思います。なお、データ分析とは、データからその特徴を見つけ出したり、判断や予測を行ったりするための、分析の実践的な側面を表すもの、データサイエンスはさまざまな分野にまたがる理論とAIや機械学習などの応用技術までを表すものと(取りあえずは)考えておいてください。
なお、筆者が非常勤講師を務める一橋大学では2023年度にソーシャル・データサイエンス学部が新設され、大変な人気となっています(平均の志願倍率3.2倍に対し、ソーシャル・データサイエンス学部は6.1倍)。今後、このような知識や技能を身に付けた生徒や学生が社会の表舞台に立つことになります。それ以前に社会人となった私たちも、彼らとともに活躍するためには、新しい知識と技能を学んでおく必要があります。
この連載では、表1の太字で書かれた項目について少しずつ例を見ながら解説していきます(各回の内容については後でもう一度整理して掲載します)。太字で書かれた項目は、主に「記述統計」と呼ばれる分野で取り扱われる考え方や手法ですが、いずれも、データ分析を実践する上でも、AI/機械学習の高度な手法を身に付ける上でも基礎となるものです。なお、この連載の目的や学ぶべき内容については、動画でも簡単に紹介しています。ぜひともご視聴ください(チャンネル登録・高評価もお待ちしています!)。
動画1 この連載の目的や学ぶべき内容について
データ分析/データサイエンスが重要視されるのはなぜ?
では、データ分析やデータサイエンスがことさら重要視されるようになったのはなぜでしょう。これまで私たちが日常的に取り組んでいたデータ分析(例えば、図1のようなグラフを作成すること)とどう違うのでしょうか。学校教育のカリキュラムにまで反映せざるを得ないような、大きなブレークスルーがあったのでしょうか。
3Vと呼ばれるキーワードがその大きな変化を端的に表しています。3Vとは、いわゆるビッグデータの特徴を表す以下の3つの単語の頭文字です。
- Volume: 量
- Variety: 種類
- Velocity: 速度
コンピュータやネットワークの性能(処理速度や記憶容量)が劇的に向上したことにより、多種多様なデータを大量に、かつリアルタイムで収集できるようになったのはもはや誰もが実感していることでしょう。しかし、その変化はおそらく想像をはるかに超えるものです。
ビッグデータ時代における情報量の計測に係る調査研究報告書(総務省)によると、とりわけ、音声や画像、センサーなどから得られたデータの量が指数関数的に増大していることが分かります。
私たちが日常的に想像するアンケートや売り上げデータの集計のような調査データ(図2a)とは異なり、何千万件、何億件といった多種多様なデータ(図2b)が刻々と集められ、おすすめ商品の表示や価格の予測などに活用されています。
図2a これまでのデータ分析のイメージ
個別にデータを収集して分析が行われる。図中の(*a)は、1万店舗のコンビニで、1日当たり700人の顧客が平均3点の買い物をした場合を想定した値(2100万件のデータとなる)。POSデータの項目は、日時、店舗、商品名、個数、価格、ポイントカードの情報など10項目から多くても数十項目程度。
図2b ビッグデータ時代のデータ分析のイメージ
これまでより多種類、大量のデータが頻繁に収集される。図中の(*b)は500億個のセンサーからインターネット経由で収集されたデータを想定した場合の例。これらのデータを個別に分析するだけでなく、組み合わせて分析を行うこともできる。例えば、ネットショッピングである商品を購入した人に対して、その人と似たような動画を見ている人が購入した別の商品をおすすめに表示するなどのフィードバックも可能になる。
例えば、航空料金などの予測アプリを提供しているHopperという企業が公開している記事では、1日あたり1000万件の検索と10億件の旅行データを基に、チケットの最安値を予測した結果が記されています。その記事では、一般に火曜日が最安値であると思われているにも関わらず、実際には国内線では木曜日が最安値である可能性が高いことや、ルートによる違いがあることなども紹介されています。
利用されたデータはGDS(Global Distribution System)と呼ばれる、世界規模の旅行関係の予約・発券システムのデータです。
このことからも分かるように、データ分析では、人が処理できる量や種類をはるかに超えたデータが対象になりつつあります。そういったデータを基に、より正確な予測が行えるというわけです。また、経験や勘を基に行われてきた予測よりも格段に精度の良い予測ができることも注目に値します。例えば、冬の降水量と育成時の平均気温、収穫期の降水量などを基にワインの品質を予測した結果が、専門家の予測よりも正確だった*2など、データ分析の力をセンセーショナルに伝える話は数多く知られています。
*2 『その数学が戦略を決める』(イアン・エアーズ著、山形浩生訳、文春文庫)
人間の判断は、いかに正確・公正であろうと努めても、どうしても認知バイアス(歪み)の影響を受けてしまいます。例えば、私たちは自分の信念に都合のいい情報ばかりを集めてしまう傾向があります。このことは、すでに紀元前からカエサル(ジュリアス・シーザー)が“Libenter homines id, quod volunt, credunt.”(人は自らが欲するものを好んで信じる)*3と述べている通りです。
*3 『ガリア戦記』(カエサル著、近山金次訳、岩波文庫)
認知バイアスから逃れるのは容易ではありません。理屈では分かっていても、どうしてもそう思ってしまうのです。例えば、持ち株の株価が下がったときにロスカット(損失の拡大を防ぐために、早めに売却するなどして損失を確定すること)すべきだと分かっていても「いや、少し待てばまた上がるはずだ」という期待を持っていると、なかなかロスカットできないものです。そのうちさらに株価が下落して、売るに売れない「塩漬け」状態になってしまうことも少なくありません(筆者もいやというほど経験しています!)。そういった認知バイアスを持つのは熟練者や専門家であっても同じです。しかし、彼らは認知バイアスを回避するために、株価が何パーセント下落したら機械的にロスカットする、といったルールに従って取引を行っていたりします。それは勘や経験というよりも、むしろデータ分析によるものです。
コンピュータは認知バイアスを持たないので、冷静な判断ができます。上で述べたように、データ分析をうまくやれば専門家よりも正確な判断や予測ができます。といっても、もちろん経験や勘を否定しているわけではありません。何が目的なのか、何が問題なのか、分析に当たってどのような項目を盛り込めばいいのか……といったことについては、経験や勘がモノを言います。
データ分析やデータサイエンスがなぜ重視されるのかという問いに対する答えは、端的に言うと「正確な予測ができるから」ということになります。正確な予測は、例えば、疫病のまん延を防いだり、最適な治療法を探したり、より効果的な教育方法を実践したり、渋滞を減らしたり(それにより、燃料が節約できる)……と、私たちの生活や幸福度を向上させるために必要不可欠です。データ分析やデータサイエンスが、学校教育でも社会でも重視されるようになってきたのはそのためといっていいでしょう。
国際競争力を高めるため、ビジネスをより有利に進めるためといった理由ももちろん考えられます。学校教育において人材育成の必要性が叫ばれるのはそのためだとも言えるでしょう。しかし、競争に勝つことではなく、上で述べたような、よりよい生活や幸福の追求のためというのが、データ分析やデータサイエンスが重視される本質的な理由であると筆者は考えます。
一方で、与えるデータに偏りや誤りがあったり、適切な項目が選択されていなかったり、手法の適用方法を間違ったりすると、とんでもない予測が行われる危険もあります。さらには得られた結果だけが一人歩きして、誤った信念をより強固に植え付けてしまう可能性もあります。私たちがデータ分析やデータサイエンスを学ぶべき理由は、正確な予測を行うためだけでなく、取り返しのつかない誤りを防ぐためでもあります。
この連載で取り扱う内容
ここまで、中学・高校で新たに学ぶデータ分析&データサイエンスの概要と、それらの重要性、学ぶべき理由について見てきました。そういったことを踏まえて、この連載ではまず記述統計を中心としたデータ分析の基礎を取り扱います(表2)。これらは、表1で紹介した中学・高校の学習指導要領で取り上げられている内容のうち記述統計に関するものを網羅しており、さらに回帰分析やデータの取り扱いも含んだものとなっています。
表2 連載の内容(編集注:字が小さすぎて読めない場合はクリックして拡大してください)
データ分析・データサイエンスの基礎となる記述統計を中心に話を進める。さらに予測を行う方法や、データを適切に取り扱う方法についても紹介する。なお、テーマや内容、順序は連載の流れによって変更することもあるが、おおむね、この表にそって進めていくことにする。
いずれの内容についても具体例を基に、Excelなどのソフトウェアを使いながらデータ分析の方法を見ていくので、考え方や手法がムリなく確実に身に付けられると思います。必要に応じて動画での解説も用意しています(今回は連載の紹介動画を用意しましたが、次回からは事例や操作も含んだ動画になります)。また、集中が途切れないように、1回あたり10分程度で読めるようにします。
では、最後に少しだけ「展望」となるようなお話を付け加えておきます。具体的な内容に入るのは次回以降となるので、先の話をしても実感が湧かないかもしれませんが、ざっと読んで頭の隅にでも置いておいてください。私たちがこれから取り組んでいこうとしているデータ分析&データサイエンスは、大きく以下(図3)の3つの領域に分けられます。相関や回帰分析など、さらに多くの領域に分けることもできますし、ここで言及していない分野や手法などもありますが、具体的な内容が分からないうちから細分化しても全体像がつかみにくいので、あえてざっくりと分けました。
図3 データ分析&データサイエンスの全体像
分類は大雑把なものだが、出発点と今後進むべき方向を示した。この連載では、データ分析やデータサイエンスに取り組むに当たって、まず、記述統計に当たる内容を主に取り扱う。推測統計やAI/機械学習につながる基礎となっているので、一歩ずつ着実に理解を進めよう。
記述統計では、すでに得られたデータの平均値や標準偏差などを求めることにより、データの特徴を見極めます。単に1つのデータの特徴を見るだけでなく、複数のデータの関係を見たり、数字だけでは分かりにくい特徴を可視化したりすることによって明確にしていきます。記述統計は、次の推測統計や、さらにはAI/機械学習を理解する上での基礎にもなります。なお、図3には示していませんが、すでに述べたように回帰分析による予測についても、この連載で学びます。
推測統計では、一部のデータ(標本)を基に、その元となるデータ(母集団)の性質を「推し測る」方法を紹介します。そのためには、確率分布の知識が必要になります。つまり、「このようなデータであれば確率的にはこうなるはずだ」→「実際に得られたデータはこうだ」→「母集団はこのような分布だろう」といった推測を行うわけです。仮説検定を含む推測統計はデータ分析&データサイエンスのもう一つの柱となります。
AI/機械学習では、多種類かつ大量のデータを基に、今回少し触れたようなさまざまな数値予測を行ったり、識別、生成などを行ったりします。識別とは、例えば監視カメラに映った顔を区別したり、エックス線写真から病気を診断したりすることです。最近の話題としては、2023年3月18日に開業した大阪駅(うめきたエリア)の顔認証改札もその一つです。生成とは、新しいものを作り出すことです。やはり最近話題のChatGPTは私たちの質問に答えて、Webサイトやデータベースを検索し、適切な答えを作り出してくれます。顔写真を基に、有名な画家のタッチで油絵のような画像を作るサービスなども人気となっています。
今回の連載ではデータ分析&データサイエンスの基礎となる記述統計を主に扱いますが、その先の、推測統計やAI/機械学習についての連載も企画しています。が、あせらず、一歩ずつ基礎を固めていきましょう。というわけで、次回はデータの取り扱いについて見ていきたいと思います。データの種類、形式をきちんと見極めることはさまざまな手法を適切に利用するための大前提です。では、お楽しみに!
ここを更新しました(2024年3月28日)
連載が完結したため、表2を実際の連載内容に合わせて修正しました。
Copyright© Digital Advantage Corp. All Rights Reserved.