画像データベースの想定外使用がAIアルゴリズムにバイアスをもたらす恐れ――米大学研究チームが明らかに:MRIへのAI適用上の問題点を実証
「オープンソースデータセットが想定外の方法でAIアルゴリズムのトレーニングに適用されると、そのアルゴリズムは、機械学習のバイアスに影響されて整合性が損なわれ、出力の精度が低くなる恐れがある」。カリフォルニア大学バークレー校とテキサス大学オースティン校の研究者のチームが、新しい研究によって明らかにした。
2022年3月21日付(米国時間)で米国科学アカデミー紀要オンライン版に掲載された研究結果は、あるタスクのために公開されたデータが、別のタスクにおけるアルゴリズムのトレーニングに使用された場合に生じる問題を浮き彫りにした。
研究チームは、医療用画像処理に関する研究で有望な結果を再現できなかったときに、この問題に気付いた。「数カ月にわたる研究を経て、論文で使用された画像データが前処理されていたことに気付いた」と、カリフォルニア大学バークレー校の電気工学およびコンピュータサイエンスの教授で、研究代表者のマイケル・ラスティグ氏は述べている。
ここ10年間におけるAIの大きな進歩は、膨大なオープンソースデータベースを用いたアルゴリズムの大規模なトレーニングに依存している。医療分野でも、長年にわたる無料オンラインデータベースの普及が、医療画像におけるAIアルゴリズムの開発を支えてきた。特に磁気共鳴画像(MRI)においては、アルゴリズムの向上はスキャンの高速化につながる。
MR画像を得るには、まず画像表現を符号化する生の測定値を取得する必要がある。その後、画像再構成アルゴリズムが測定値を復号し、臨床医が診断に使用する画像を生成する。
大規模画像データベースとして有名な「ImageNet」など、一部のデータセットには数百万枚の画像が含まれる。医療画像を含むデータセットは、スキャンで得られた測定値を復号するためのAIアルゴリズムのトレーニングに使用できる。ラスティグ氏の研究室の博士研究員で、この研究をまとめた論文の主執筆者を務めたイフラット・シムロン氏は、「経験の浅いAI研究者は、これらの医療データベース内のファイルが生ではなく、しばしば前処理されていることに気付いていないかもしれない」と指摘している。
生の画像ファイルは圧縮された画像ファイルより多くのデータを含んでいるため、AIアルゴリズムのトレーニングでは、生のMRI測定値のデータベースを使うことが重要だ。だが、そうしたデータベースはほとんどなく、ソフトウェア開発者は、処理済みMR画像とともにデータベースをダウンロードし、一見生のように見えるそれらの測定値を合成し、それを使って画像再構成アルゴリズムを開発してしまう場合がある。
研究チームは、こうした誤った手法でアルゴリズムが開発されたときに生じるバイアスのある研究結果を「暗黙のデータ犯罪」と呼び、注意を喚起した。
「この間違いは簡単に起こり得る。データ処理パイプラインは、データがオンラインに保存される前にデータキュレーターによって適用されるが、これらのパイプラインは常に記述されるとは限らないからだ。つまり、どの画像が処理済みで、どの画像が生なのかは必ずしも明らかではない」(シムロン氏)
あまりにも「良すぎる」データとは
こうしたやり方がパフォーマンスのバイアスにつながることを実証するため、研究チームは、fastMRIデータセットに基づく生画像と処理済み画像の両方に、3つのよく知られたMRI再構成アルゴリズムを適用した。処理済みデータを使用した場合、アルゴリズムは、生データから生成された画像よりも最大48%優れた画像(目に見えて鮮明でシャープな画像)を生成した。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 図とコードで必ず分かるニューラルネットワークの逆伝播
ニューラルネットワークの逆伝播を多数の図とPythonコードから理解しよう。NumPy(線形代数)なしのフルスクラッチで逆伝播の処理を実装してみる。掛け算と足し算の簡単な計算だけで実装できる。 - AIモデル学習の評価時/オペレーション時に発生するバイアスリスク、どう対処する?
正しくAIを作り、活用するために必要な「AI倫理」について、エンジニアが知っておくべき事項を解説する本連載。第3回は、AIモデル学習の評価時、オペレーション時のバイアスリスクへの対処法について。 - 画像認識の機械学習を、無料で誰でも簡単に作れる「Microsoft Lobe」
画像分類を行う機械学習モデルを「無料」で作成できるLobe。その機能と特徴を作業手順の流れで一通り解説。知識ゼロでもGUI操作で簡単に機械学習できるLobeを体感してみよう。