検索

社会人1年生から学ぶ、やさしいデータ分析【Excel/エクセルで学べる】

社会人1年生から学ぶ、やさしいデータ分析【Excel/エクセルで学べる】

羽山 博

 この連載では、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学びます。
 データの収集方法、データの取り扱い、分析の手法などについての考え方を具体例で説明するとともに、身近に使える表計算ソフト(ExcelやGoogleスプレッドシート)を利用した作成例を紹介します。
 必要に応じて、Pythonのプログラムや統計ソフトRなどでの作成例にも触れることにします。
 数学などの前提知識は特に問いません。肩の力を抜いてぜひとも気楽に読み進めてください。
 本連載の続編に、推測統計の基礎となるさまざまな確率分布の特徴や応用例を説明する『社会人1年生から学ぶ、やさしい確率分布』連載があります。

第1回 高校生に負けない! 社会人が学ぶべき、やさしいデータ分析(2023/04/20)

  • もはや中学・高校生も学んでいるデータ分析&データサイエンス
  • データ分析/データサイエンスが重要視されるのはなぜ?
  • この連載で取り扱う内容

第2回 データ分析の進め方と、分析前に知っておきたいデータの種類(2023/05/11)

  • データ分析の進め方はスパイラル!
    ・コラム データ分析へのアプローチ〜仮説の探索と検証
  • 分析の前に知っておきたいデータの種類〜構造化データと非構造化データ
    ・構造化データ 〜 レコードとフィールド
    ・定量的なデータと定性的なデータ
    ・コラム 尺度によって分析方法が異なる
    ・非構造化データ 〜 分析に適した形に変換する必要がある
    ・実践の第一歩として 〜 ビッグデータ時代のオープンデータ利用
  • 初めてのオープンデータ活用
    ・e-Govデータポータルでデータのダウンロード
    ・統計ダッシュボードでデータのグラフ表示と分析

第3回 平均値の落とし穴 〜 平均給与が高すぎる?!(2023/06/01)

  • 代表値として最もよく使われる平均値、でも万能ではない
  • 極端な値や分布の偏りに影響されにくい中央値
  • 尺度によって代表値が異なる 〜 平均値/中央値/最頻値の使い分け
  • 最もよく現れる値も代表値として使える 〜 最頻値
    ・度数分布表も作っておこう 〜 COUNTIF関数を使う
    ・間隔尺度の最頻値は度数分布表を作って求める 〜 FREQUENCY関数を使う
    ・階級数の決め方 〜 スタージェスの公式
    ・コラム どの代表値も使えない?! 〜 複数の集団が混在している場合

第4回 分散/標準偏差 〜 給与の格差ってどれぐらい?(2023/06/15)

  • サンプルファイルの利用について
  • 平均値だけで集団の性質を表すのは「雑」すぎる 〜 散布度も見よう
  • 間隔尺度の散布度を求める 〜 まずは分散から
    ・コラム 外れ値を検出するには
  • 間隔尺度の散布度を求める 〜 標準偏差も求めよう
  • 「ばらつきの度合い」とは平均値からどれぐらい離れているかということ
  • 分散や標準偏差をイメージで理解しよう
  • 分散や標準偏差を数式できちんと理解しよう
    ・コラム その「ばらつき」って、どの「ばらつき」?! 〜 2種類の分散と標準偏差
    ・コラム 歪度と尖度で分布の形を知る

第5回 四分位範囲と平均情報量 〜 趣味や好みにはどれぐらいの幅があるのか?!(2023/06/29)

  • サンプルファイルの利用について
  • 順序尺度や分布に偏りのある間隔尺度の散布度 〜 四分位範囲/四分位偏差
  • 四分位範囲/四分位偏差を求めてみよう(1) 〜 QUARTILE.EXC関数を使う
  • 四分位範囲/四分位偏差を求めてみよう(2) 〜 QUARTILE.INC関数を使う
    ・コラム QUARTILE.EXC関数とQUARTILE.INC関数の計算方法
    ・QUARTILE.EXC関数の場合(第1四分位数の求め方)
    ・QUARTILE.INC関数の場合(第1四分位数の求め方)
  • 四分位範囲を可視化するのに使われる箱ひげ図
  • 名義尺度の散布度を求める 〜 平均情報量っていったい何
    ・コラム 情報量と平均情報量の定義

第6回 順位と偏差値 〜 私の成績順位はどのあたり?(2023/07/20)

  • サンプルファイルの利用について
  • まずは単純に順位を求めてみよう
  • 80点を取ったら第何位?
    ・コラム PERCENTRANK.EXC関数とPERCENTRANK.INC関数の計算方法
  • 上位10%に入るには何点取ればいい?
  • 平均値と標準偏差の間にどれぐらいの人がいるの?
  • 20歳代の男性で身長175cmなら全体のどのあたり?
  • 正規分布で全体の上位10%に入るための身長は?
  • 20歳代の170cmと60歳代の170cmではどちらが高身長? 〜 偏差値

【特別予告編】グラフの種類と使い分け 〜 データ可視化入門(2023/08/17)

  • 問題意識と分析の目的、可視化の方法について 〜 ケーススタディを中心に
  • 規模や効果の差を比較するには棒グラフ
  • 時系列での変化を見るには折れ線グラフ
  • 全体の中での割合 = 重要度を見るには円グラフ/パレート図
  • 中心の位置や広がり(分布)を見るにはヒストグラム
  • どの位置の値が大きいかを見るにはヒートマップ
  • 項目同士の関係を見るには散布図

第7回 棒グラフで「規模や効果」を可視化 〜 どちらの広告が効果的なのか?(2023/08/31)

  • たかが棒グラフとあなどるなかれ 〜 売り上げの差を可視化してみよう
  • グラフ作成のための前処理を行う(1)〜 売り上げを集計してからグラフ化する
  • グラフ作成のための前処理を行う(2)〜 広告1クリック当たりの売り上げをグラフ化する
  • 棒グラフの大きな大きな落とし穴 〜 目盛の取り方に注意
    ・コラム 費用対効果も考慮する必要がある
  • データをもう少し詳しく見てみよう 〜 時系列データはタイムラグに注意

第8回 折れ線グラフで「変化」を可視化 〜 売り上げは本当に上がっているか?(2023/09/14)

  • 折れ線グラフに潜む落とし穴 〜 成績の変化を可視化、でもそれでいいの?
    ・コラム 連勝の後は連敗が来る? 〜 平均値への回帰
  • 世界の中で日本の地位はどう変化したか 〜 データは比較してこそ違いが見えてくる
  • 可処分所得は増えているのか 〜 折れ線グラフは「切り取り」にご注意
    ・コラム 直感だけに頼らず、データに頼ろう
  • 株価の動きを予測する 〜 トレンドを見るには移動平均が便利
  • 規模の異なるデータの変化を可視化/比較する 〜 棒グラフと折れ線グラフの複合グラフを作る

第9回 円グラフやパレート図で「重要度」を可視化 〜 どの割合が本当に多いのか?(2023/10/12)

  • 3Dグラフに潜む落とし穴 〜 円グラフで割合を可視化してみると?
    ・コラム グラフデータの範囲を間違って変なグラフができてしまったら
    ・コラム グラフを構成する要素
  • 重要度をランク付けする 〜 パレート図を使ってABC分析を行う
  • 規模と割合の変化を可視化する 〜 積み上げ縦棒グラフの利用
  • 割合の変化だけを可視化するには 〜 100%積み上げ縦棒グラフの利用

第10回 ヒストグラムや箱ひげ図で「分布」を可視化 〜 集団の特徴や外れ値を見つける(2023/10/26)

  • ヒストグラムから特徴を読み取る 〜 いびつなグラフこそ情報の宝庫
  • 箱ひげ図により四分位範囲を可視化する 〜 大半のデータがどの範囲にあるかを知る
    ・コラム バイオリン図では値が集中している箇所も分かる
  • ピボットテーブル/ピボットグラフを活用する 〜 属性別にヒストグラムを作る

第11回 クロス集計表やヒートマップで「分布」を多角的に可視化 〜 項目同士の関連を見つける(2023/11/16)

  • ピボットテーブルを利用してクロス集計表を作る 〜 関係を可視化するためのデータを作成
  • ヒートマップにより頻度を色分けする 〜 値の大小や関係を可視化
  • ピボットテーブルの計算方法を変える 〜 値ではなく割合を可視化する
  • ヒートマップでクラスターを可視化する 〜 グループ分けを見やすくする
    ・コラム k-means法によるクラスタリングのプログラム

第12回 散布図を徹底活用して「関係」を可視化 〜 関係と規模を一度に見る(2023/12/07)

  • 散布図を作成して関係を可視化する 〜 外れ値や項目の特徴も見つけよう
  • バブルチャートを作成して規模も可視化する 〜 売り上げに貢献しているクラスを見つける
    ・コラム バブルチャートをグループごとに色分けする
    ・コラム 多数の項目同士の散布図を一度に作成する

第13回 相関係数 〜 気温と電気代に関係はあるのか?(2024/01/11)

  • 相関係数の基本をざっとおさらい
  • 相関係数の計算方法を図形的に見てみよう 〜 相関係数の意味がよく分かる!
    ・相関係数を定義通りに計算してみよう
  • 相関係数の落とし穴(1) 〜 相関係数が0に近くても関係が強いこともある
  • 相関係数の落とし穴(2) 〜 疑似相関にご注意
  • 相関係数の落とし穴(3) 〜 相関関係は必ずしも因果関係ではない
  • 発展:順序尺度や名義尺度で、関係を表す数値を求めるには
  • スピアマンの順位相関
  • クラメールの連関係数

第14回 単回帰分析による予測(線形回帰、指数回帰) 〜 排気量から中古車の価格を予測しよう(2024/02/01)

  • 視覚的に回帰分析を理解しよう 〜 回帰式の可視化
  • 回帰式の係数と定数項を求めよう
  • 回帰式を利用した予測を行ってみよう
  • 回帰分析の考え方(単回帰分析の場合)
  • 回帰分析の精度を上げるには
  • 回帰分析の精度を評価するには
  • 説明変数と目的変数の関係が直線的でない場合 〜 指数回帰の例
    ・回帰式の係数と底の計算
    ・近似曲線の描画
    ・コラム 細菌の数や感染者数などはロジスティック方程式でモデル化される
    ・コラム 周期的に変化するデータには時系列分析が使える

第15回 重回帰分析による予測(線形回帰、多項式回帰) 〜 年式、走行距離、排気量から中古車の価格を予測(2024/02/22)

  • 相関行列を作成しよう 〜 説明変数を選定する
    ・コラム 全ての変数の組み合わせについて散布図を描くには
  • 重回帰分析を行う 〜 重回帰式の係数と定数項を求める
  • 重回帰分析による予測を行う
  • 重回帰分析の精度を可視化/評価する
    ・散布図の作成
    ・コラム 決定係数に関する留意点 〜 自由度調整済み決定係数などのお話
    ・決定係数 R2
    ・自由度調整済み決定係数 adj R2
    ・注意点:決定係数が大きいから当てはまりがよいとは限らない?!
  • 特徴量を作成する
  • 名義尺度のデータを数値化する
    ・コラム 重回帰分析の落とし穴 〜 多重共線性にご注意
  • 多項式回帰による回帰分析を行う 〜 気温と電気器具によるCO2排出量を例に
    ・多項式回帰による回帰分析を行う
    ・散布図の作成

第16回 データ分析に適したデータ形式に変換する方法と、表データを読み込む方法(2024/03/28)

  • 繰り返しのあるデータの表し方 〜 伝票形式のデータの取り扱い
    ・入力を容易にし、かつ、エラーデータが入らないようにする仕組み
    ・入力規則の設定
  • スタック形式とアンスタック形式の相互変換
    ・スタック形式からアンスタック形式に変換する
    ・コラム ピボットテーブルを使ってアンスタック形式に変換する
    ・アンスタック形式からスタック形式に変換する
     - GoogleスプレッドシートとExcelで利用可能な(やや高度な)方法
    ・コラム 項目の繰り返しレベルが増えた場合の取り扱い
  • CSVファイルの文字化けに対処する
  • 項目がうまく区切られない場合の対処法
    ・コラム Webページの表を読み込む



■ Excelなどの表計算ソフトの関数リファレンス ■

 「Excel関数」と表記していますが、大半の関数はGoogleスプレッドシートでも同様に使用できます。GoogleスプレッドシートやExcelでしか使えない独自関数もありますので、そういった関数群は「Googleスプレッドシートで○○するための関数」のような表記でまとめて示しています。

第7回で取り上げたExcel関数(2023/08/31)

ページトップに戻る