最近注目を浴びることが多くなった「Deep Learning」と、それを用いた画像に関する施策周りの実装・事例について、リクルートグループにおける実際の開発経験を基に解説していく連載。最終回は、画像認識の判別精度を向上させる具体的手順と落とし穴、ハイパーパラメーターのチューニング、学習を自動化するActive Learningについて。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
最近注目を浴びることが多くなった「Deep Learning(ディープラーニング・深層学習)」と、それを用いた画像に関する施策周りの実装・事例について、リクルートグループにおける実際の開発経験を基に解説していく本連載。
前回までは、下記のように解説してきました。ニューラルネットワーク、Deep Learning、Convolutional Neural Net(CNN)の基礎知識と活用例、主なDeep Learningフレームワークを紹介し、リクルートグループで画像解析において積極的に利用しているフレームワーク「Caffe」を中心にDeep Learningを利用した画像解析について解説。そして、リクルートグループにおける画像解析の事例を紹介し、ビジネスへの活用に当たり、CNNだけでは乗り超えられない壁を乗り越えるまでの試行錯誤の過程を解説しました。
最終回となる第4回では、リクルートグループにおける画像解析施策の実例を基に、判別精度向上の試みを赤裸々に解説していきます。
Deep Learningに限らず、一般的に予測・分類などの目的で機械学習を行う際には、「判別精度」に着目してモデルの作成、チューニングを行います。この判別精度向上という作業が機械学習に携わる人間にとっては腕の見せ所であり、楽しみであり、また苦難が続く過程でもあるのです。
連載第3回で紹介した、ホットペッパービューティ―(リクルートライフスタイル運営)のネイルデザイン判別を例にすると、実際の判別精度の確認、向上作業は下記のような過程で進んでいきます。
最初に、ネイルのデザイン画像を用意しラベル付けを行います。第3回でも記載した通り、投稿された「手の全体画像」からネイルに該当する部分を1枚ずつ切り出す作業を前処理として行っており、画像入稿時に付与される「手全体に対する単一のデザインラベル」をそのまま使用することはできません。そのため、切り出したネイル写真1枚1枚に対して人手で正解デザインのラベル付けを行う必要がありました。今回のモデリング用には最終的に4万718枚もの画像を用意しました。(この作業のおかげで、私たちはリクルートテクノロジーズの中でも1、2を争うほどネイルデザインに詳しくなったという伝説が生まれました)。
次に、いよいよモデルを作成します。本施策では、40718枚の画像のうち、モデルの学習に用いる訓練データとして3万6633枚、予測用のテストデータとして4085枚の約9:1の割合で分割しました。この訓練データを用いてモデルを作成し、4085枚のテストデータのラベルを予測します。
学習に全てのデータを使いたいところですが、ここで全てのデータを学習に用いてしまうと、訓練データがデータとしての代表性に欠けているケースが実際に多いために、「過学習」と呼ばれる「訓練データに対してよく学習されているが、未知のテストデータに対しては適合できていない」事象に遭遇することが多くなります。
この未知データの予測処理が終わった後、実際に手動でラベル付したデザインと予測結果を比較し、答えが合っているかどうかで精度を算出します。
この全体精度に加えて、下記のようなConfusion Matrixを基に「どのデザインの精度がよかったか」などを考察し、各種ハイパーパラメーター変更や訓練データの追加などを行いながら、この一連の過程を 繰り返すことで精度を高めていきます。これが「チューニング」と呼ばれる作業です。
また、この精度検証では通常「K-分割交差検証」などの交差検証(Cross-validation)を用いて精度検証を行うとよいのですが、実際の現場では施策リリース時期などの制限もあり、簡易的な精度チェックを基にチューニングを繰り返すことになる方が多いようです。
例えば、このConfusion Matrixからは、「animal」については、「実際にanimalとラベル付された74枚ラベルのうち、41枚がanimalと予測された」ので、半分以上の正答率となると分かります。一方で、「flower」に関してはどのデザインにおいても誤判別されやすい傾向があり、このflowerのデータからうまく特徴量が取り出せていない可能性があることも分かります。
Deep Learningにおける精度向上方法といえば、ハイパーパラメーター群のチューニングが真っ先に思い浮かぶと思います。連載第3回でも一部ご紹介しましたが、Deep Learningではハイパーパラメーターの種類が非常に多く、代表的なものを挙げるだけでも下記のようなパラメーター群が存在します。
これらのパラメーターを変更後、モデルを作成し精度を見るという方法を幾度か繰り返すことになります。「グリッドサーチ」と呼ばれる自動的に最適なハイパーパラメーターを探索する手法もありますが、現実的にはいくつか重要なパラメーターに絞り、順番を決め、その値を変更して最適値を求めていく手法が多く採られる傾向があります。
ネイルの画像判別においても、実に100回前後の試行を繰り返しました。下記のようにイテレーション数やdropoutの数などを変え精度の改善を図っていくのが現実的です。
この図から、最終的にはパラメーターチューニングにより、20ラベルに対して50%程度の精度向上ができた過程が見てとれると思います。
Copyright © ITmedia, Inc. All Rights Reserved.