そこで神田氏は、話題になることの増えてきた機械学習/ディープラーニングに着目。テキストマイニングで文献のレコメンデーションができないかと考えた。疫学も専門であり、統計学に親しみのある神田氏は、自ら機械学習の活用に取り組むことにした。
では、どういう戦略で進めるべきか。そこで神田氏が思い出したのは、大学入試共通一次試験対策の裏ワザ本の内容。国語で回答の選択肢として文章が示される問題の場合、「多くの選択肢に共通するフレーズを最も多く含んだ選択肢が正解」である可能性が高いとされていた。
神田氏は、これを論文の1次スクリーニングに応用。人間が選択する論文(のアブストラクト)の多くに頻出する言葉を含む論文を抽出することで、選ぶべき論文のレコメンデーションができると考えた。つまり、人間が選択する論文のアブストラクトの内容を訓練データとして、ディープラーニングを実行することになる。
神田氏は機械学習フレームワークにWindows版のTensorFlowを利用し、100の訓練データに基づいて作成した機械学習モデルを、972の論文アブストラクトに適用した。
神田氏は各種のニューラルネットワークモデルを比較。CNN(Convolutional Neural Network:畳み込みニューラルネットワーク)の幾つかのバリエーションに比べ、RNN(Recurrent Neural Network:再帰型ニューラルネットワーク)や、その派生形LTSM(Long Short-Term Memory)のバリエーションであるGRU(Gated Recurrent Unit)を使うことで、より高い精度が得られることを見いだした。
今回の検証では、クリニカルクエスチョンとして、前出の「患者教育は透析回避に効果があるか」を使用した。機械学習によるレコメンデーションを「第3の査読者」として採用することで、人によるスクリーニングでは18の論文に絞り込まれていたが、新たに妥当と思われる論文を10件追加できたという。
このクリニカルクエスチョンは、例えば「ビタミンD製剤はCKDに推奨されるか?」に比べると抽象的であるため、人による論文スクリーニングは手間がかかる。こうした場合に、上記の裏ワザ本をヒントにした機械学習/ディープラーニングは有用性が特に高いと、神田氏は話している。また、人による選択との比較で学習を積み重ねることにより、今後の改訂版に向けてさらに精度を高められるメリットがあるという。
診療ガイドラインは、多数のクリニカルクエスチョンについての解説が収録されている。例えば公表されている前出の「エビデンスに基づくCKD診療ガイドライン2013」には、129のクリニカルクエスチョンがある。
今回の検証は、そのうち1つに機械学習/ディープラーニングを適用して、効果を実証したにとどまる。神田氏は、今後他の委員に利用を働きかけていきたいと話した。また、2次スクリーニングへの応用を図っていきたいという。
Copyright © ITmedia, Inc. All Rights Reserved.