マサチューセッツ工科大学(MIT)の研究チームは、機械学習モデルの予測を信頼するかどうかをユーザーが判断するためによく使われる「説明モデル」には問題があることを示した。少数派を公平に扱えないという問題だ。なぜこのようなことが起きるのだろうか。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
マサチューセッツ工科大学(MIT)は2022年6月1日(米国時間)、機械学習の予測を信頼するかどうか、ユーザーが判断するために用いる「説明モデル」に問題があると発表した。
機械学習の対象データとなる人々のうち、社会的に不利な立場にある人々で構成されるサブグループについては、精度が低くなる可能性があるという。
機械学習モデルは、意思決定支援に利用されることがある。例えば、「どのロースクール志願者が、司法試験に合格する可能性が高いか」をモデルが予測し、ロースクールの入試担当者がその予測結果を、(ロースクールの合格実績を高めるために)どの学生を合格させるかといった判断に役立てる場合がある。
こうした機械学習モデルは多くの場合、数百万ものパラメーターを持つ。このため、モデルがどのように予測するかについては、機械学習の利用経験がない入試担当者はもとより、研究者であっても、完全に理解することはほぼ不可能だ。
そこで研究者は、大規模なモデルを模倣した説明モデルを採用し、予測の単純な近似を作成することがある。なぜなら近似したモデルははるかに理解しやすく、ユーザーにとって、機械学習モデルによる予測を信頼するかどうかを判断するのに役立つからだ。
MITの研究チームは、広く使われている幾つかの説明モデルの公平性を調査した。その結果、これらの説明モデルが出力する近似の品質は、対象者のサブグループによって大きくばらつき、マイノリティーと位置付けられるサブグループでは、品質が著しく低下する場合が多いことを発見した。
MITの研究チームは、こうした公平性の格差が広く存在することが分かった後、公平性を確保するための幾つかの手法を試した。その結果、幾つかの格差を縮小させることができたが、格差をなくすことはできなかった。
「このことは現実の世界では、あるサブグループに関する予測が、別のサブグループに関する予測よりも、誤って信頼される可能性が高いことを意味する。そのため、説明モデルを改良することは重要だが、モデルの詳細をエンドユーザーに伝えることも同様に重要だ」。MITコンピュータサイエンス・人工知能研究所(CSAIL)のHealthy ML(健全なML)グループに所属する大学院生で、研究論文の筆頭著者であるアパーナ・バラゴパラン氏はそう述べている。
2022年6月21〜24日に韓国のソウルで開催される「ACM Conference on Fairness, Accountability, and Transparency」(ACM FAccT)で、この研究のプレゼンテーションが行われる。なお、今回の研究に関する論文はarXivで公開されている。
単純化された説明モデルは、複雑な機械学習モデルの予測の近似を、人間が理解できる方法で作成できる。効果的な説明モデルは、「忠実度」と呼ばれる特性を最大化する。近似が大規模モデルの予測とどの程度一致するのかを測る指標が忠実度だ。
研究チームは、説明モデル全体の平均的な忠実度に注目するのではなく、モデルのデータセットのサブグループ単位で忠実度を調べた。男性と女性から成るデータセットでは、各グループの忠実度は非常に似ていて、説明モデル全体の忠実度に近いだろうという見通しを持っていた。
研究チームは、サブグループ間の忠実度の差を測定するため、2つの指標を考案した。1つは、説明モデル全体の平均的な忠実度と、最も成績の悪いサブグループの忠実度との差だ。もう1つは、サブグループの全ての可能な組み合わせを示したペア間で忠実度の差の絶対値を計算し、その平均値を算出したものだ。
研究チームはこれらの測定指標を用いて、2種類の説明モデルを使って忠実度の差を調べた。これらの説明モデルは、「集中治療室(ICU)で患者が死亡するかどうか」「被告人が再犯するかどうか」「ロースクール志願者が司法試験に合格するかどうか」を予測するといった状況を想定して実世界の4つのデータセットでトレーニングされた。
各データセットには、個人の性別や人種などの保護属性が含まれている。保護属性とは、法律や組織の方針により、意思決定に使用されない可能性がある特徴を指す。
研究チームは、全てのデータセットと説明モデルについて、明確な忠実度の差を発見した。不利な立場にあるグループの忠実度は、しばしばかなり低く、最大で21%に達する場合があった。ロースクールのデータセットでは、人種間の忠実度の差が7%あった。これは、あるサブグループの近似が間違っている可能性が平均して7%高かったことを意味する。例えば、これらのサブグループの出願者が1万人いた場合、かなりの割合が誤って不合格になる可能性があると、バラゴパラン氏は説明する。
「われわれが評価した全てのデータセットで、こうした忠実度の差が広く見られた。ブラックボックス化した機械学習モデルの“修正”として、説明モデルがいかに一般的に使われているかは、いくら強調してもし過ぎることはない。われわれは論文では、説明モデル自体が不完全な近似であり、一部のサブグループに悪影響を与える可能性があることを示している」(バラゴパラン氏)
研究チームは忠実度の差を特定した後、それを修正する幾つかの機械学習アプローチを試した。忠実度が低くなりがちなデータセットの領域を特定するために、説明モデルをトレーニングし、それらのサンプルに焦点を当てた。また、全てのサブグループから同数のサンプルを集めた、バランスの取れたデータセットも使用してみた。
これらの機械学習戦略により、忠実度の差はある程度軽減されたが、解消されなかった。
そこで研究チームは、説明モデルに変更を加え、そもそもなぜ忠実度の差が生じるのかを探った。その結果、グループラベルが隠されていても、説明モデルがデータセットから学習可能な、保護されたグループ情報(性別や人種など)を間接的に利用している可能性があることが明らかになった。
研究チームは今後、なぜ忠実度の差が生じるのかという難問をさらに探究していく。また、実際に意思決定を下す文脈で忠実度の差がもたらす影響についても、研究を進める計画だ。
バルゴパラン氏は、この問題をよく理解することの重要性を強調し、機械学習ユーザーに次のように注意を喚起している。
「説明モデルは慎重に選ぶ必要がある。だが、それ以上に重要なのは、説明モデルを使う目的と、それが最終的に誰に影響を与えるのかを、注意深く考えることだ」(バラゴパラン氏)
Copyright © ITmedia, Inc. All Rights Reserved.