Rは統計解析のブッシュナイフだ:実践! Rで学ぶ統計解析の基礎(1)(2/4 ページ)
今ほど統計解析が必要とされる時代はありません。オープンソースの統計処理言語・環境の「R」を使って実践的な統計解析のテクニックとリテラシーを習得しましょう! 読者にとってRは、世に溢れるデータの密林を切り開くための“ブッシュナイフ”となることでしょう(編集部)
連載の前口上と小理屈
日本語による統計解析の手ほどきとなるコンテンツを提供したい。それがこの連載の目的です。ただ、なぜ筆者のような浅知短才の者がその任を担うのかということへの小理屈を述べておきたいと思います。もちろん、能力的には筆者よりも適切な方が数えきれないほどいるのは言を待ちません。
しかし、そういった方々はたいてい研究者や教育者や生産現場の技術者であり、そのような方々は残念なことにこのような日本語による手ほどきを一般向けに提供するインセンティブをあまり持っていません。例えば、研究で統計解析をインテンシブに利用していてかつ教育を行っている研究者の人たちは、こういう解説文を書くための能力は十分すぎるほどあるでしょう。しかし、研究上の生存競争を生き残るためには、研究論文を英文で書く必要がありそのことが業績になっていきますが、一般向けの日本語の統計解析解説を書いてもほとんど業績になりません。そのため、限られたリソースの問題で手間がかかる一般向け日本語解説は優先度が著しく低くなります。また、その人々が教育を行っている場合は、所属する組織への教育の義務はありますので、講義の過程で講義ノートを作成するインセンティブはあるでしょう。そして、それが発展して書籍として出版されることもありますが、それは自分の講義を超えた実務者向けの実践的内容の手ほどきとしてまで手を入れることはないでしょう。なぜなら、実践的な統計解析の書籍というものが、往々にして執筆が困難であるのにも関わらず、漫画や小説に比べて圧倒的に売れ行きが悪く、その本を執筆することで蔵が建つほどの商業的成功を期待できないというのが大きな理由だと思います。このように、一般向けで実践的な統計解析の解説というのは、作り手にはあまり魅力がないものとなっています。
そういった状況の中で、なぜ筆者がこの連載を開始するかということについてのディスクローズが必要だと思っています。実はこの連載を行うことで、それをペースメーカーとして、筆者の会社であるバクフー株式会社(リンク)で提供するサービスのコンテンツを作り続けたいという意志があります。バクフーは、技術を用いて世の中の「なるほど」「分かった」「面白い!」を増やすことを目指して起業した会社で、インターネット関連システムの開発やコンサルティングを行いながら、自分たちのサービスを提供することを目指しています(リンク)。そのサービスと1つに、知識コンテンツを動画配信する事業があります(リンク)。現在はその立ち上げ作業の真っ最中です。ここで提供するコンテンツの「スピンアウト」が本連載になるという位置付けです。自分たちの会社のポリシーは「なるほど、分かった、面白い!」ということなので、分かりやすく使える統計解析の記事をこの連載で提供することを目指したいと思っています。ただし、間違った記述、おかしな解釈をするかもしれません。そのときは遠慮なくご指摘、批判くださり、筆者の蒙を啓いてくださればありがたく思います。
何よりもまず、実践的な統計解析を体験してみる
ところで、一般向けで実践的な統計解析の解説と一口にいっても、これはなかなか困難です。今回、必要な知識分野を大まかに列挙すると、「確率論」「記述統計学」「推測統計学」「R言語」「統計解析の現実世界への適用」、というようにどれもが巨大なブロックです。本当に使えるようになるには、それぞれがそれなりの年月をかけて習得する必要があります。従いまして、これらすべての解説をこなすことは、この連載の形式からも筆者の能力からもなかなか困難です。そこで、目標をもう少し小さく絞り、オープンソース、オープンデータ、オープンアイデアという環境を生かして、公知に存在し、アクセスできるデータを利用し、その統計解析コードをRで書き、実行させることで実践的に統計解析の利用方法を体験し、統計解析の概念を把握するということを目標としましょう。
その目標のために、実際にアクセスできるデータを利用して、Rで具体的なコードを示しながら統計解析をしていきます。必要な知識については、そのつど説明していきますが、その知識があまりに大きな場合は、分かりやすい解説をしている書籍やWebページを指し示すことで解説に替えさせてもらう、こういうような方針とさせてください。ちなみに連載第1回となる今回のタイトル、「Rは統計解析のブッシュナイフだ」には、オープンデータの密林を、Rというオープンソースソフトウェアのブッシュナイフを使って道を切り開いてく、というイメージを持たせております。実践的に自分の手で切り開いていった道が、統計解析のリテラシーとなるのです。
前置き・能書きが長くなりました。早速、最初のテーマを提示します。最近までサッカーワールドカップで盛り上がりました。筆者もご多分にもれず楽しみましたが、そのサッカーについての話題を最初のテーマとします。
誕生月によってJリーガーになりにくくなるのか?
世界的ベストセラーになったマルコム・グラッドウェル(Malcolm Gladwell)氏の著作に『Outliers』があります(邦訳が出ていますが、残念なことに誤訳と間違った解釈が多いため、できることなら原書を読むことをお勧めします)。この本に出てくるエピソードに「マタイ効果」(Matthew effect)というものがあります。この効果は社会学の碩学ロバート・マートン(Robert Merton)が、新約聖書のマタイ第13章12節にある以下の言葉にちなんで、名付けたものです。
おおよそ、持っている人は与えられて、いよいよ豊かになるが、持っていない人は、持っているものまでも取り上げられるであろう
本には、カナダのホッケーリーグ、チェコのサッカーリーグ・ホッケーリーグの一軍プレイヤーは1月生まれが最も多く、2月、3月と続き、9月生まれ以降はほとんどいない例が書かれています。この理由は、これらのスポーツリーグではドラフトに参加できる選手の誕生日を1月2日からと決めているからで、その年に開かれるドラフトにおける一番「年長」は、1月2日生まれとなるからだそうです。つまり、1月生まれは、ほかの月の生まれに比べて早く成長する蓋然性が高く、身体が大きく運動能力が高い人間が多くなるでしょう。そしてそのことにより長く練習ができる環境に出会えたり、上位のグループで練習する機会が得られたり、良いコーチに出会える可能性が高くなるといった、プラスのフィードバックがかかって、ますます能力の磨きがかかるから、上記のスポーツリーグのプレイヤーには1月生まれが多いのだとしています。
ちなみにロバート・マートンが1968年と1988年の論文でマタイ効果を提唱した背景は次のとおりです。社会学の研究として科学コミュニティを調べていて、特にノーベル賞受賞者を中心に調べたところ、トップスクールに属していて業績があり有名な研究者はますます有名になり、業績が積み重なっていくという現象があり、その現象を説明するために「マタイ効果」という名前を付けたそうです。こちらも業績のある人がますます業績を積み重ねていくというプラスのフィードバックがかかるというものでした。
- Merton, Robert K. (1968). The Matthew Effect in Science (PDF). Science 159 (3810), 56-63.
- Merton, Robert K. (1988). The Matthew Effect in Science, II: Cumulative advantage and the symbolism of intellectual property (PDF). ISIS 79, 606-623.
この「マタイ効果」が日本のJリーガーにも存在する可能性があるかどうか、Jリーガーの誕生月には何らかの偏りがあるかどうか、ということをここで検証したいと思います。ただし、このJリーガーの誕生月については、2002年のデータを用いた解説文が、以下のようにすでに存在します。
- J.LEAGUE NEWS NO.84 (2002年8月10日号)「サッカー選手の誕生月の検証」
- 青木繁伸「統計数字を読み解くセンス」p187
ここでは、上記のデータを新しいものにして、できる限りその解析方法の手の内を明かして定量的に示したいと思います。
Copyright © ITmedia, Inc. All Rights Reserved.