東芝と統数研が機械学習アルゴリズム「HMLasso」を開発：欠損率が高くても全体の計算精度を下げない

東芝と統数研は、収集した製造データに多くの欠損値が含まれていても、品質低下や歩留まり悪化などの要因を高い精度で特定する機械学習アルゴリズム「HMLasso」を開発した。最先端アルゴリズム「CoCoLasso」と比べて、推定誤差を約41％削減できた。

[＠IT] PC用表示関連情報

LINE

Hatena

　東芝と大学共同利用機関法人　情報・システム研究機構　統計数理研究所（以下、統数研）は2019年8月2日、収集した製造データに多くの欠損値が含まれていても、品質低下や歩留まりなどの要因を高い精度で特定する機械学習アルゴリズム「HMLasso」（Least absolute shrinkage and selection operator with High Missing rate）を開発したと発表した。両者によると、最先端アルゴリズム「CoCoLasso」（Convex Conditioned Lasso）と比べて、推定誤差を約41％削減できたとしている。

　東芝と統数研が開発したアルゴリズムの特徴は、大きく次の3つ。

欠損率が高くても高精度に回帰モデルを構築可能
欠損値の補完プロセスを省略
重要項目の自動絞り込み

HMLassoの活用イメージ（出典：東芝）

HMLassoの特徴

　HMLassoは欠損率の高低を考慮した柔軟な計算をする。このため欠損率の高い項目があっても、全体の計算精度は低下しない。従来のCoCoLassoは、欠損率の高低を考慮していないため、欠損率が高い項目に引きずられて全体の精度が下がってしまっていた。

　さらにHMLassoは、欠損値を含むデータから、欠損値を補完せずに「回帰モデル」を構築できる。これによって全体の計算時間を短縮できる。データ項目が多い場合には、変数選択とモデル化を同時に実施することで、品質や歩留まりへの影響が高い項目だけを絞り込めるようにした。

　東芝と統数研は、開発したアルゴリズムの有効性を「理論と実験の両面から検証した」としている。両者によると、理論解析では、欠損率を活用することで「誤差限界」が最適になり、従来のアルゴリズムよりも優れていることを検証したという。人工データ（平均欠損率50％、項目ごとの最大欠損率90％以上）を使った数値実験では、CoCoLassoと比べて推定誤差を約41％削減できた。

　工場やプラントといった製造現場では、製造プロセスや設備稼働に関するデータが日々大量に収集され、蓄積されている。例えば、製造物の品質や加工条件、設備の温度や圧力などのデータだ。こうしたデータを回帰モデルによって分析することで、品質や歩留まりが悪化する要因を特定したり、改善したりすることが可能になる。

　ただし、日々収集されるこうしたデータには測定ミスや通信エラーによる欠損が含まれる。さらに、品質確認の際には全量ではなく、抜き取り検査をすることが多いため、東芝によると、実際には1割程度しかデータを収集できない場合があるという。一般には、こうした欠損値をあらかじめ補完してから解析するが、欠損値が多いと計算量が膨大になるため、解析処理の高速化や高精度化は困難だった。

　なお両者は、HMLassoを実装した簡易プログラムをオープンソースソフトウェアとして公開した。

東芝と統数研が機械学習アルゴリズム「HMLasso」を開発：欠損率が高くても全体の計算精度を下げない

HMLassoの特徴

関連記事

関連リンク

Smart & Social 記事ランキング