機械学習をビジネスで活用したい人に向け、最新技術情報に基づき、機械学習の概要、統計学との違い、機械学習の作業フローと学習方法、回帰/分類/クラスタリング/次元削減に使える手法、次の一歩を踏み出すための参考情報を、5分で読めるコンパクトな内容で紹介する。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
本稿は、2021年4月5日に公開した記事を、2022年4月14日の最新情報に合わせて改訂したものです。ローコードやノーコードに関する情報の追記などのアップデートを行いました。
人間が経験から学ぶように、機械がデータから学習することを機械学習(ML)と呼びます。例えば犬や猫の画像データから「あれが犬」「これが猫」と判断できるように学習することなどです。これは人間の子供に犬や猫を見せて「あれが犬」「これが猫」と覚えさせるのに似ていますね。
「5分で分かる人工知能(AI)」でも説明しましたが、機械学習には例えば、回帰分析や主成分分析、決定木、サポートベクタマシン、ディープラーニング(=ニューラルネットワークという仕組みを発展させたもの)など多くの手法(後述)があります(図1)。
回帰分析や主成分分析と聞いて、統計学の多変量解析を思い浮かべたかもしれません。実際に、一部の統計学の手法は機械学習でも使用します。しかし、統計学はデータを分析してインサイト(=内在する本質)を得ることを重視しているのに対し、(人工知能における)機械学習は何らかの手法/アルゴリズムを用いてデータから予測することを重視している点が異なります。分析重視か活用重視かという微妙な違いですが、これはそのままデータサイエンスと人工知能の違いでもあります。
データサイエンスでは、統計学/機械学習/数理モデルに基づくデータ分析によって、データからインサイトを得ることが主目的です。例えば「Webサイトのクリックデータを分析して何らかのインサイトを得る」ような分析作業はデータサイエンティストの得意分野です。
それに対し、人工知能を実現するための機械学習では、データから予測することが主目的となります。例えば「Webサイトのクリックデータからお勧めの商品を提示するレコメンデーション機能を実装する」ような活用作業は機械学習エンジニアの得意分野です。他には、手書き文字の認識、顔認識、画像生成、翻訳エンジン、テキスト生成、自動運転、ロボット制御なども、「データ分析でインサイトを得たい」というよりも「データからの予測を行う機能(=機械学習モデル)を活用したい」という目的の方が強いと考えられるので、機械学習エンジニア向きの作業といえます。
ビジネスで機械学習を採用する際には、どちらの目的を重視するかを意識して人選や発注をするとよりよいでしょう。本稿では、人工知能における機械学習の内容について掘り下げて説明していきます。
まず準備として、(1)解決したい問題を定義し、(2)使うデータを収集します。
次に機械学習のモデルを作成します。モデルとは、入力されたデータから「予測値」を出力するもの(その中身は計算式/計算方法)のことです。
(3)機械学習の手法/アルゴリズムを選択し、(4)そこで使うデータ項目(=特徴量)を選択/加工します(=特徴量エンジニアリング)。例えば重回帰分析という手法を選択し、間取り/築年数/駅からの距離といった特徴量を選択/加工するなどです。
なお従来の機械学習では、特徴量エンジニアリング次第で結果が変わるので職人技の見せどころでした。ディープラーニングでは、内部のネットワーク構造に特徴量が自動的に抽出/表現されるため、特徴量に関する作業は軽減されたものの、ネットワーク構造の設計が重要になっています。
(5)訓練用データでモデルをトレーニングします(=学習)。(6)訓練が済んだモデルに検証用データを入力して正しい出力が行えるか検証/評価します。
合格点に達しない場合、(7)特にディープラーニングでは内部のネットワーク構造や訓練方法に関する設定値(=ハイパーパラメーター)を調整して、(3)からやり直します。
合格点に達したら、ようやく運用開始です。(8)訓練済みモデルを本番環境で活用します。このフェーズは、(3)〜(7)の学習フェーズに対して推論と呼ばれます。
ちなみに最近では、学習フェーズの処理を自動化するAutoMLという技術が発展し普及してきています。また、ドラッグ&ドロップなどのビジュアル操作だけで、ほとんど/全くコードを書かずに機械学習を実現するローコードやノーコードと呼ばれるサービスが多数登場してきています。
機械学習では、学習方法を基本的に下記の3つに分類します。
ディープラーニングでは、学習方法が多様化して、教師あり学習か教師なし学習かに明確に分けづらくなっています。その代表例が、ラベルなしデータからラベルを自動生成して学習を行う自己教師あり学習で、2020年以降、人気が高まってきています。
さて次に、教師あり学習と教師なし学習に分けて代表的な機械学習の手法を紹介します。
教師あり学習で行える代表的なタスク(問題種別)は、
です(「5分で分かる人工知能(AI)」の図4でも紹介済み)。
各タスクで使える機械学習の代表的な手法を紹介します。付記した概要文だけではよく分からないと思いますので、今回は「そういうのがあるのね」と名前だけ押さえてみてください。
上記の手法は主に構造化データ(表形式データ)に用いられます。
非構造化データには、ディープラーニング(ニューラルネットワーク)がよく用いられます。もちろん構造化データにもディープラーニングは使え、最近ではTabNetなどの新手法が登場して注目されています。
Copyright© Digital Advantage Corp. All Rights Reserved.