データ分析、AI/機械学習の実装、生成AIの活用(まとめてデータサイエンス)は、もはや多くの人に必要な知識となっています。これらの基礎はどうやって学べばよいのでしょうか? オススメの勉強方法を紹介します。
「社内データを活用したいけど、何を学べばいいの?」
「文系の私に、データ分析なんてできるのかな……?」
「Pythonは未経験だけど、AIや機械学習を学びたい!」
最近のニュースでよく見聞きする「データ分析」「AI(人工知能)」「生成AI」「DX(デジタルトランスフォーメーション)」。これらの知識は、もはやソフトウェアエンジニアだけでなく、企業経営者や営業部員などの一般社会人にも無関係ではありません。
例えば、作業服チェーンの「WORKMAN(ワークマン)」は、Microsoft Excelを使ったデータ分析(“エクセル経営”)で業績を伸ばしました(参考書籍)。最近ではPythonというプログラミング言語を活用して、より効率的に高度なデータ分析を進めているそうです。
このような新しい時代の流れに乗り遅れないようにしたいですよね! ソフトウェアエンジニアや一般社会人は、どのようにしてデータ分析/AI/機械学習(まとめてデータサイエンス)の基礎を学べばよいのでしょうか?
この記事では、“知識ゼロ”からこれらを学びたい初心者の皆さんに向けて、私たち@ITのDeep Insider(アットマーク・アイティのディープ・インサイダー)が考えるオススメの勉強法をご紹介します。
Deep Insiderは「AI・データサイエンスの学びをここから」というキャッチコピーを掲げ、社会人1年目の“知識ゼロ”から分かる易しい教科書型の連載で、データ分析/AI/機械学習の基礎コンテンツを提供しています(図1)。今回も初心者向けに分かりやすくガイドしていきますので、安心して付いてきてください。ちなみに、無料の会員登録をすれば、全ての連載記事が“無料”で読めます。
業務などでデータ分析やAIを実践するなら、最初に、
データ分析やAIで何をしたいか?
という目標を決めておく必要があります。それを決めるためには、
データ分析やAIで何ができるか?
というAIやデータサイエンス全体の概要を把握しておく必要があります。これには次の連載を一読するのがお勧めです。
執筆担当: 一色政彦
この連載では、AIやデータ分析、データサイエンスをこれまでに学んだことがない社会人(新卒の社会人1年生からベテラン社員まで大歓迎!)に向けて、「データ&AIを活用したいなら、最初に知っておくべき全体概要」、具体的にはAI・データサイエンスの概要と、データ分析(数値予測などの分析系AI)、画像認識などの識別系AI、文章生成などの生成系AIを紹介しています。
難しい知識の習得よりもシンプルな経験を重視して、手を動かして体験しながら学べる内容ですので、肩の力を抜いてぜひとも気楽に読み進めてください。
さらに、各分野の基礎や用語をコンパクトに学びたい場合は、連載『5分で分かるAI・機械学習・データサイエンス』にも目を通すことをお勧めします。
さて、全体像を把握したら、「あなたがしたいこと」を明確にしましょう。
AIやデータサイエンスで実現できることは幅広いですが、以下の3つの方向性に大別できます。これらについては前述した連載『AI・データサイエンス超入門』の第1回で解説しており、第2回〜第4回で実際に体験しながら学べます。
図2は、(A)(B)(C)の方向性別に、学ぶ対象のステップを示しています。
なお、「(C)生成AI」は発展途上で刻々と学ぶべき内容が変わっていく可能性があります。そのため、現状では体系立てて学べる教科書的なコンテンツはあまりないかもしれません。最新のニュースなどを常にウオッチし続ける必要があるでしょう。よって本稿では、学習の対象外とします。
それでは、各ステップで学ぶことについて説明していきます。
データ分析の基本的な考え方のベースとなっているのは統計学です。統計学には、大きく分けて記述統計や推測統計があります。また、確率分布は推測統計の基礎となっているので、これも学ぶ必要があります。
Deep Insiderでは、記述統計と回帰分析という最も基礎的な内容については、次の連載で易しく学べます。
『社会人1年生から学ぶ、やさしいデータ分析【Excelで学べる】』[完結]
執筆担当: 羽山博
この連載では、データをさまざまな角度から分析し、その背後にある有益な情報を取り出す方法を学びます。具体的には、データの収集方法、データの取り扱い、分析の手法などについて学びます。
データ分析の考え方を具体例で説明するとともに、身近に使える表計算ソフトウェア(ExcelやGoogleスプレッドシート)を利用した作成例を紹介します。必要に応じて、Pythonのプログラムや統計ソフトウェア「R」などでの作成例にも触れています。
数学などの前提知識は特に問いません。肩の力を抜いてぜひとも気楽に読み進めてください。
また、確率分布については、次の連載を展開中です。完結するまでしばらく時間がかかりますので、記事公開のペースで一緒に学んでいきましょう。
『社会人1年生から学ぶ、やさしい確率分布【Excelで学べる】』[連載中]
この連載は、上記の連載(記述統計と回帰分析編)の続編で、確率分布に焦点を当てています。この確率分布編では、推測統計の基礎となるさまざまな確率分布の特徴や応用例を説明します。
身近に使える表計算ソフトウェアを使いながら具体的に事例を見ていきます。必要に応じて、Pythonのプログラムや統計ソフトウェア「R」などでの作成例にも触れることにします。
数学などの前提知識は特に問いません。中学・高校の教科書レベルの数式が登場しますが、必要に応じて説明を付け加えるのでご心配なく。肩の力を抜いてぜひとも気楽に読み進めてください。
最後の推測統計については、確率分布編が完結してから展開予定です。しばらくお待ちください。
ステップ1までは表計算ソフトウェア(ExcelやGoogleスプレッドシート)を使っていましたが、より効率的な作業にはプログラミングのスキルが有用です。データ分析やAI、機械学習では「Python(パイソン)」というプログラミング言語がよく用いられていますので、これを学びましょう。
『Python入門』[完結]
執筆担当:かわさきしんじ
この連載では、Pythonでデータ分析、機械学習、AI・データサイエンスに挑戦する方々に向けて、「Pythonとは何か?」から、文法の基礎、応用的な知識までを取り上げています。
全53回の大ボリュームです! 記事を読みながら手を動かすことで、Pythonのスキルが身に付きます。日々のプログラミングには『解決!Python』もお役立てください。
「そんなにたくさんの文字を読んでいられないよ!」という方には、Pythonの文法をギュッとまとめた『Pythonチートシート』と電子書籍(PDF)も用意しています。
データ分析や機械学習では、データを整理したり加工したり、グラフに可視化したりする必要があります。この際、PythonではNumPy(ナムパイ)、pandas(パンダス)、Matplotlib(マットプロットリブ)といったライブラリ(簡単にいうとプログラムの部品集)を使います。次にこれを学びましょう。
『Pythonデータ処理入門』[連載中]
この連載では、『Python入門』で文法の基礎知識を身に付けた方々に向けて、Pythonライブラリを使いこなし、大量のデータを処理する方法を解説します。
主目的はライブラリの活用なので、数学的な話はあまり取り上げません。具体的には、NumPy、pandas、Matplotlibの使い方と、データ処理、データ分析の方法を学びます。
本連載の下には、[NumPy超入門][pandas超入門]などのサブトピックがあります。2024年6月現在、[NumPy超入門]は完結し、[pandas超入門]を連載中です。
ステップ2でPythonとデータ処理を学んだら、いよいよ機械学習について学びましょう。機械学習は、データ分析やAIなどのデータサイエンスでは必須の知識となります。
『Pythonで学ぶ「機械学習」入門【知識ゼロでも大丈夫】』[連載中]
執筆担当: 一色政彦
「機械学習は難しそう」と思っていませんか? 心配は要りません。この連載では、「知識ゼロから学べる」をモットーに、機械学習の基礎と各手法を図解と簡潔な説明で分かりやすく解説します。
Pythonを使った実践演習もありますので、自分の手を動かすことで実用的なスキルを身に付けられます。
生成AIがブームになる前は、深層学習(ディープラーニング)がブームになっていました。深層学習は、機械学習の一分野なので、これも押さえておきましょう。
『普通のエンジニアが初めて動かすディープラーニング』[完結]
全74ページの電子書籍(PDF)で、『TensorFlow 2+Keras入門』という連載の最初の3回をまとめたものです。深層学習の仕組みと実装方法を初心者向けに解説しています。
図解により直感的に仕組みが理解できるように工夫されています。「深層学習を使いこなす自信が持てない」と思っている方には特にオススメです。
以上で、AI・データサイエンスの基礎中の基礎を押さえることができます。ソフトウェアエンジニアや一般的な社会人は、まずはここまで読了するのが目標としてお勧めです。
しかし、より本格的に学びたいのであれば、次の「応用ステップ1:数学」と「応用ステップ2:深層学習」も併せて学ぶことをお勧めします。
数学については、必要になったら、その部分を学ぶのがお勧めです。特に社会人であれば、中学数学から大学数学まで全部を学ぶのは非現実的だからです。
機械学習や深層学習でよく使われる数学は、
の3分野です(参考:「機械学習/ディープラーニングの“数学”が学べるオススメ本」)。数学の基礎知識として、これらを優先的に学んでおきましょう。
これらの数学も、Deep Insiderで無料で学べます。
『AI・機械学習の数学入門 ― 中学・高校数学のキホンから学べる』[完結]
また、数学をPythonプログラミングで実装できるようになりましょう。
『数学×Pythonプログラミング入門 ― 中学・高校数学で学ぶ』[完結]
深層学習は最先端の分野の一つなので、モデルの新しいアーキテクチャ(構造)が登場しては廃れていきます。よって、本格的に深層学習を実践するなら、最新のものを学び続ける必要があります。
初心者であれば、まずは基本の仕組みを理解しておきたいですよね。次の連載では、Pythonでコーディングしながら、深層学習の仕組みをステップバイステップで学ぶことができます。
『Pythonコードで理解するニューラルネットワーク入門』[完結]
また、最近の深層学習では、PyTorch(パイトーチ)というライブラリを使うのが一般的です。次の連載でその初歩を学べます。
『PyTorch入門』[完結]
学びに終わりはありません。この後は、より専門的な書籍などを手に取り学んでいきましょう。
ここまで、データ分析やAIについてのオススメの勉強方法を紹介してきました。学んだ知識やスキルを証明するには、資格を取得するのが手っ取り早いと思います。この目的で使い勝手が良さそうなのが「DX推進パスポート」というデジタルバッジです。
デジタルバッジは、以下の3つの試験に合格することで取得できます(図3)。
ITに詳しい人であれば、iパスは不要だと思います。G検定とDS検定はぜひ受験してほしいです(参考:「データサイエンス/AI/ディープラーニングの資格ガイド」)。
生成AIの活用に関しては、以下の試験があります。
本稿では、ソフトウェアエンジニアや一般的な社会人に向けた勉強方法について紹介しました。しかし、より本格的に学び、ゆくゆくは「データサイエンティスト」や「機械学習(AI)エンジニア」というプロフェッショナルになりたいという人もいるかもしれません。最後にこれについて、Deep Insiderが考えるオススメの勉強方法を紹介しておきます。
最も分かりやすいのは、大学と大学院に通うことです。受験して合格し、大学や大学院で卒業まで単位を取ったことなどが、勉強したことの一定の証(あか)しになるでしょう。大学で学術的に学んだという安心感もあります。
とはいえ、社会人でなかなか大学院に通えないという場合もあるでしょう。そのような場合には、機械学習モデル(AI)による予測の精度を競うコンペティションのKaggle(カグル)やSIGNATE(シグネイト)に参加して、上位入賞のメダルを獲得するのがお勧めです。
コンペティションにはゲームのような面白さもあるので、はまると楽しいと思います。『Kaggle入門』という連載があるので、興味がある方はぜひ参照してみてください。
実績を示す方法の一つとして、GitHub(ギットハブ)というコードリポジトリ(プログラムの保管場所)に自身が実施したデータ分析の結果やAIの実装コードを置いて、誰でも参照できるようにするのもお勧めです。
転職の際にも、実力を証明するためにアピールしやすいと思います。
以上、初心者向けにオススメの、データ分析/AI/機械学習の勉強方法を示し、それに対応するDeep Insiderのコンテンツを紹介しました。Deep Insiderでは、他の多くのサイトとは異なり、教科書型の地味なコンテンツを出し続けます。
2020年にDeep Insiderの方針を説明した記事では、「AIのサービスを作りたい」と考える機械学習(AI)エンジニアの卵(初心者)を読者ターゲットとして想定していました。2023年度からは、時代の流れに合わせて、ソフトウェアエンジニアや一般社会人をもターゲットに見据えて、より多くの人に分かりやすいコンテンツ作りを心掛けています。
2023〜2024年現在では生成AIのニュース記事が注目を集めやすいと感じていますが、こんな真面目な勉強用サイトがあってもよいのではないかと思います。コンセプトを気に入っていただけたのであれば、ぜひ応援して、連載記事も定期的に読んでいただけるとうれしいです。
Copyright© Digital Advantage Corp. All Rights Reserved.