検索
連載

5分で分かる機械学習(ML)5分で分かるシリーズ(2/2 ページ)

機械学習をビジネスで活用したい人に向け、最新技術情報に基づき、機械学習の概要、統計学との違い、機械学習の作業フローと学習方法、回帰/分類/クラスタリング/次元削減に使える手法、次の一歩を踏み出すための参考情報を、5分で読めるコンパクトな内容で紹介する。

PC用表示 関連情報
Share
Tweet
LINE
Hatena
前のページへ |       

4分 ―― 機械学習(ML)の代表的な手法 パート2(教師なし学習)

 教師なし学習で行える代表的なタスク(問題種別)は、

  • クラスタリング: 既存のデータを幾つかのグループ(=クラスタ)に分けるタスク
  • 次元削減: データの次元数(もしくは内部にある特徴の数)を減らして情報を圧縮/要約するタスク

です。

図4 クラスタリングと次元削減のイメージ
図4 クラスタリングと次元削減のイメージ

 各タスクで使える機械学習の代表的な手法を紹介します。付記した概要文だけではよく分からないと思いますので、今回は「そういうのがあるのね」と名前だけ押さえてみてください。

クラスタリング問題に使える手法

  • 階層的クラスタリング: 各データを(基本的に)距離が近い順、つまり類似順で結び付けていく手法で、トーナメント表のようなツリー(樹形図)が下から上に形成される。ツリーの房にぶら下がるデータ群がクラスタとなる
  • k平均法(k-means): 各データをランダムにk(数値を入れるパラメーター)個分のクラスタに分けた状態から、各クラスタのデータ群の重心を求めてクラスタを分け直す処理を何度も繰り返すことで最終的なクラスタ(例えば図4の左)を確定する手法
  • 混合ガウスモデル(GMM)によるクラスタリング: k個の確率分布を重ね合わせる手法で、どのクラスタに所属するかが確率的に決まる

次元削減に使える手法

  • 主成分分析(PCA): データからその主成分となる軸(例えば図4の右)を幾つか取得する手法。例えば英国数理社5科目のテスト結果から第1主成分「文系能力」と第2主成分「理系能力」の2軸を取得した場合、5次元の特徴量から2次元の主成分に情報が圧縮/要約されたと見なせる
  • オートエンコーダー ネットワーク構造における入力と出力を同じ内容にするディープラーニング(ニューラルネットワーク)の手法で、その中間にあるノード/特徴の数を入力よりも少なくすることで情報を圧縮/要約できる。例えば英国数理社5科目が入力とする場合、中間のノード数を2つとするなど

 ディープラーニングが得意なのは教師あり学習ですので、教師なし学習の手法/モデル構造はあまり多くありません。しかし前述した自己教師あり学習は、ラベルを用意する必要がないという点で「教師なし学習の一種」であり、今後、ディープラーニングが得意な学習方法の一つとなる可能性が高いです。

5分 ―― まとめと、次の一歩のための参考情報

図5 機械学習(ML)に関するお勧め資料
図5 機械学習(ML)に関するお勧め資料

機械学習をより詳しく学ぶには

 [1分][2分]では、機械学習の概要と、その作業フロー、学習方法を説明しました。

 より詳しい情報が欲しい場合は、『図解即戦力 機械学習・ディープラーニングのしくみと技術がこれ1冊でしっかりわかる教科書』(2019年)をお勧めします。「機械学習を分かっている人」と認められるには、この本の全内容を理解するのが目標となります。この本の特長は、ページの先頭に見だしがある用語集的な構成なのでキーワードを一望しやすいことです。逆にそれが欠点となり、ぶつ切りの解説になりがちなので、この本だけでは理解しづらいかもしれません。

 そんな場合は、『機械学習入門 ボルツマン機械学習から深層学習まで』(2016年)を最初に読むとよいでしょう。ストーリー仕立てで比喩も多用されているので分かりやすいです。

 上記の2冊は一般人向けですが、より学術面からも理解したい場合は『イラストで学ぶ 人工知能概論 改訂第2版』(2020年)も併用するとよいでしょう。

機械学習の手法を理解するには

 [3分][4分]では、代表的な機械学習の手法を紹介しました(ディープラーニングの手法はディープラーニング編で紹介)。

 現実の業務に即して手法をより詳しく理解するには、『Pythonで儲かるAIをつくる』(2020年)が役立つと思います。業務目線と同時に技術目線でも説明されており、ポイントなる部分のPythonコードもコンパクトに掲載されています。プログラミングが分かる人であれば、より現実感を持って理解できます。

 各手法を自分で実装体験したい場合には、『scikit-learn データ分析 実装ハンドブック』(2019年)がお勧めです(scikit-learn=機械学習を簡単に実装するためのPythonライブラリ)。この本にはディープラーニング系は含まれていませんが、本稿で紹介した機械学習の手法の大半が説明されています。

機械学習のプロジェクトを立ち上げるために

 実際に機械学習のプロジェクトを進める予定がある場合は、『いちばんやさしい機械学習プロジェクトの教本 人気講師が教える仕事にAIを導入する方法』(2018年)も参考になると思います。

目次

1分 ―― 機械学習(ML)とは(前ページ)

2分 ―― MLの作業フローと学習方法(前ページ)

3分 ―― MLの代表的な手法 パート1(教師あり学習)(前ページ)

4分 ―― MLの代表的な手法 パート2(教師なし学習)(現ページ)

5分 ―― まとめと、次の一歩のための参考情報(現ページ)


「5分で分かるシリーズ」のインデックス

5分で分かるAI・機械学習」(5分で分かるシリーズ

Copyright© Digital Advantage Corp. All Rights Reserved.

前のページへ |       
[an error occurred while processing this directive]
ページトップに戻る