東芝と統数研が機械学習アルゴリズム「HMLasso」を開発欠損率が高くても全体の計算精度を下げない

東芝と統数研は、収集した製造データに多くの欠損値が含まれていても、品質低下や歩留まり悪化などの要因を高い精度で特定する機械学習アルゴリズム「HMLasso」を開発した。最先端アルゴリズム「CoCoLasso」と比べて、推定誤差を約41%削減できた。

» 2019年08月06日 08時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 東芝と大学共同利用機関法人 情報・システム研究機構 統計数理研究所(以下、統数研)は2019年8月2日、収集した製造データに多くの欠損値が含まれていても、品質低下や歩留まりなどの要因を高い精度で特定する機械学習アルゴリズム「HMLasso」(Least absolute shrinkage and selection operator with High Missing rate)を開発したと発表した。両者によると、最先端アルゴリズム「CoCoLasso」(Convex Conditioned Lasso)と比べて、推定誤差を約41%削減できたとしている。

 東芝と統数研が開発したアルゴリズムの特徴は、大きく次の3つ。

  • 欠損率が高くても高精度に回帰モデルを構築可能
  • 欠損値の補完プロセスを省略
  • 重要項目の自動絞り込み
画像 HMLassoの活用イメージ(出典:東芝

HMLassoの特徴

 HMLassoは欠損率の高低を考慮した柔軟な計算をする。このため欠損率の高い項目があっても、全体の計算精度は低下しない。従来のCoCoLassoは、欠損率の高低を考慮していないため、欠損率が高い項目に引きずられて全体の精度が下がってしまっていた。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。