東芝と統数研が機械学習アルゴリズム「HMLasso」を開発:欠損率が高くても全体の計算精度を下げない
東芝と統数研は、収集した製造データに多くの欠損値が含まれていても、品質低下や歩留まり悪化などの要因を高い精度で特定する機械学習アルゴリズム「HMLasso」を開発した。最先端アルゴリズム「CoCoLasso」と比べて、推定誤差を約41%削減できた。
東芝と大学共同利用機関法人 情報・システム研究機構 統計数理研究所(以下、統数研)は2019年8月2日、収集した製造データに多くの欠損値が含まれていても、品質低下や歩留まりなどの要因を高い精度で特定する機械学習アルゴリズム「HMLasso」(Least absolute shrinkage and selection operator with High Missing rate)を開発したと発表した。両者によると、最先端アルゴリズム「CoCoLasso」(Convex Conditioned Lasso)と比べて、推定誤差を約41%削減できたとしている。
東芝と統数研が開発したアルゴリズムの特徴は、大きく次の3つ。
- 欠損率が高くても高精度に回帰モデルを構築可能
- 欠損値の補完プロセスを省略
- 重要項目の自動絞り込み
HMLassoの特徴
HMLassoは欠損率の高低を考慮した柔軟な計算をする。このため欠損率の高い項目があっても、全体の計算精度は低下しない。従来のCoCoLassoは、欠損率の高低を考慮していないため、欠損率が高い項目に引きずられて全体の精度が下がってしまっていた。
さらにHMLassoは、欠損値を含むデータから、欠損値を補完せずに「回帰モデル」を構築できる。これによって全体の計算時間を短縮できる。データ項目が多い場合には、変数選択とモデル化を同時に実施することで、品質や歩留まりへの影響が高い項目だけを絞り込めるようにした。
東芝と統数研は、開発したアルゴリズムの有効性を「理論と実験の両面から検証した」としている。両者によると、理論解析では、欠損率を活用することで「誤差限界」が最適になり、従来のアルゴリズムよりも優れていることを検証したという。人工データ(平均欠損率50%、項目ごとの最大欠損率90%以上)を使った数値実験では、CoCoLassoと比べて推定誤差を約41%削減できた。
工場やプラントといった製造現場では、製造プロセスや設備稼働に関するデータが日々大量に収集され、蓄積されている。例えば、製造物の品質や加工条件、設備の温度や圧力などのデータだ。こうしたデータを回帰モデルによって分析することで、品質や歩留まりが悪化する要因を特定したり、改善したりすることが可能になる。
ただし、日々収集されるこうしたデータには測定ミスや通信エラーによる欠損が含まれる。さらに、品質確認の際には全量ではなく、抜き取り検査をすることが多いため、東芝によると、実際には1割程度しかデータを収集できない場合があるという。一般には、こうした欠損値をあらかじめ補完してから解析するが、欠損値が多いと計算量が膨大になるため、解析処理の高速化や高精度化は困難だった。
なお両者は、HMLassoを実装した簡易プログラムをオープンソースソフトウェアとして公開した。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 「AI・機械学習の勉強を始めたい」「AIサービスを作りたい」人のための技術情報フォーラムです!
AI技術者を応援するフォーラム「Deep Insider」が@ITに登場してから2年目。その背景やメディアのコンセプト、編集方針などをご紹介するとともに、スキルレベル別のAI・機械学習の学習方法と、それらのレベルに応じた本フォーラムのお勧めコンテンツ、準備中の記事企画についてご紹介しよう。 - Microsoft、.NET開発者向け機械学習フレームワークの新版「ML.NET 1.2」を発表
Microsoftは、.NET開発者向けの機械学習(ML)フレームワークの最新版「ML.NET 1.2」を発表した。下位互換性を維持しながら、さまざまな改良を施した。予測と異常検知を担うパッケージや「TensorFlow」を使うためのパッケージが正式版になった。 - 機械学習を用いた予測分析ソフトウェア「Prediction One」を無償提供 ソニー
ソニーは機械学習を用いた予測分析ソフトウェア「Prediction One」を、法人向けに無償提供する。利用者にデータ処理に関する専門知識や経験がなくても、精度の高い予測が可能。