フェイクニュースの言語パターンを特定、MIT研究チームがAIモデルを開発:お手本選びが重要
MITの研究チームはフェイクニュースを自動検出するシステムを研究。これにより、機械学習モデルが本物の記事と偽の記事の言語パターンを捉えられることが分かった。ただし、「正しい」記事の特徴をつかむ際に課題が残っているという。
マサチューセッツ工科大学(MIT)の研究チームは、フェイク(偽)ニュースを自動検出するシステムの研究成果を2019年2月6日に発表した。
開発した機械学習モデルは、本物の記事と偽の記事について、微妙ながらも一貫性のある言葉選びの違いを捉えることに成功したという。
研究の結果、フェイクニュース検出システムを実用化するためには、正しい記事のサンプルなどについてより厳密なテストを重ねる必要があることも示した。
フェイクニュースの問題は、ドナルド・トランプ氏とヒラリー・クリントン氏が立候補した2016年の米国大統領選挙で広く知られるようになった。これを受けて、偽の記事が含む言語上の手掛かりを認識するニューラルネットワークによるフェイクニュース自動検出システムの開発が、研究者によって行われるようになった。
こうしたシステムは、管理された環境においてかなり高い精度でフェイクニュースを見分けられるようになっている。
残された2つの課題をどのように解決したか
だが、こうしたシステムには2つの課題が残されていた。
第1の課題は「ニューラルネットワークがトレーニング時に、どのような言語パターンを分析するのか分からない」という“ブラックボックス”問題だ。
第2の課題は、ニューラルネットワークを、あらかじめ選択したトピックを用いてトレーニングし、結果をテストすることから生まれる。学習結果を全く新しいトピックに一般化した場合、フェイクニュースの検出精度が下がる可能性もある。
MITの研究チームは、この両方の課題に取り組んだ結果を論文にまとめ、Conference and Workshop on Neural Information Processing Systemsで発表した。
研究チームは、フェイクニュースと本物のニュースが含む言語パターンを検出できるよう学習するディープラーニングモデルを開発した。研究チームの取り組みの一部はブラックボックスを開けて、モデルが予測を行うために捉える単語とフレーズを明らかにしている。さらに、研究チームはこのディープラーニングモデルのテストを、トレーニングで使用しなかった新しいトピックについて行った。
このアプローチでは個々の記事を、言語パターンのみに基づいてフェイクニュースかどうか判定する。これは、ニュース読者向けのアプリケーションで求められる機能に近い。なお、従来のフェイクニュース検出システムは、ニューステキストと確度が高いソース情報(Wikipediaの記事やWebサイトなど)の組み合わせに基づいて記事を判定している。
研究チームのメンバーであるポスドク研究員のXavier Boix氏は次のように述べている。「われわれは、言語(の癖)のみに基づく検出システムの判定プロセスが、どのようなものか理解したかった。フェイクニュースの文言がどのようなものかについての洞察を提供するからだ」
「機械学習や人工知能(AI)がはらむ重大な問題は、答えが得られても、なぜその答えが得られたのか分からないことだ。こうした内部の仕組みが明らかになれば、ディープラーニングによるフェイクニュース検出システムの信頼性を理解する第一歩になる」(論文の第一筆者であるMIT学部学生のNicole O’Brien氏)
何が分かったのか
研究チームが開発したディープラーニングモデルは、本物のニュースまたはフェイクニュース内に現れる傾向がある単語のセットを特定できた。
得られた結果は、フェイクニュースと本物のニュースの間にある微妙ながら一貫性のある違いを示しているという。例えばフェイクニュースでは、誇張や最上級の表現が好まれ、本物のニュースでは、言葉の選択がより慎重だ。
- 本物のニュースで多用される動詞の例:adapting、aiming、appeared、backing、campaigning、challenges、compared、debating、delivering、disappointed、drew、emerged、ensuring、fails、hit、improve、insisting、kept、leaving、offering、play、praised、ran、reducing、resisted、running、scrambling、staring、takes、urged
- フェイクニュースで多用される動詞の例:breaking、carrying、continue elect、fed、follow、getting、happening、help、indicate、let、lying、need、occupying、please、provided、registered、seems、spending、stated、sworn、tell、translated、want、went
研究チームが開発したモデルは畳み込みニューラルネットワークで、これをフェイクニュースと本物のニュースのデータセットでトレーニングした。フェイクニュースについては、フェイクニュースの研究用データセットとして広く知られている「Kaggle」を使用し、本物のニュースについては、「New York Times」の記事2000本以上と、英国の新聞「The Guardian」の記事9000本以上を使用した。
研究チームのメンバーは、言葉のさまざまなバイアスを管理することが難しいことなどを挙げ、ニューラルネットワークによるフェイクニュース検出システムを実用化するには、厳密なテストを重ねる必要があるとしている。
例えば、研究チームはトレーニング用の本物のニュースとして、主にNew York TimesとThe Guardianの記事を使用したが、フェイクニュース検出システムが、「本物のニュースは、この2つの報道機関の記事作成スタイルに必ず従わなければならない」と誤って学習しないようにするには、どうしたらよいか、ここに問題が残っているという。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- ミシガン大が「フェイクニュース検出システム」開発、言語分析アルゴリズムを利用
ミシガン大学の研究者が、フェイクニュース記事を人間並みに、時には人間以上に正確に見分ける言語分析アルゴリズムベースのシステムを開発した。「うその言語的特徴」を識別することで、人間よりも最大6ポイント高い検出率を実現できたという。 - Google、Cloud AutoMLでテキスト分析と翻訳に対応、認知系AIサービスも強化
Googleは2018年7月24日(米国時間)、年次イベント「Google Cloud Next ’18」で、GoogleCloud Platform(GCP)における認知系AIサービスの強化を発表した。Cloud AutoMLではテキスト分析と翻訳が追加。また、既存の認知系APIサービスにおける強化も発表された。 - TensorFlowを使った機械学習を論文抽出に適用、ヒントは大学入試問題対策の裏ワザ
医師が、ディープラーニングフレームワークのTensorFlowを自ら用い、診療ガイドラインの作成における「心の折れる作業」である論文スクリーニング作業を自動化。効果を実証した。ヒントは共通一次試験の対策本にあった。