フェイクニュースの言語パターンを特定、MIT研究チームがAIモデルを開発お手本選びが重要

MITの研究チームはフェイクニュースを自動検出するシステムを研究。これにより、機械学習モデルが本物の記事と偽の記事の言語パターンを捉えられることが分かった。ただし、「正しい」記事の特徴をつかむ際に課題が残っているという。

» 2019年02月14日 17時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 マサチューセッツ工科大学(MIT)の研究チームは、フェイク(偽)ニュースを自動検出するシステムの研究成果を2019年2月6日に発表した。

 開発した機械学習モデルは、本物の記事と偽の記事について、微妙ながらも一貫性のある言葉選びの違いを捉えることに成功したという。

 研究の結果、フェイクニュース検出システムを実用化するためには、正しい記事のサンプルなどについてより厳密なテストを重ねる必要があることも示した。

 フェイクニュースの問題は、ドナルド・トランプ氏とヒラリー・クリントン氏が立候補した2016年の米国大統領選挙で広く知られるようになった。これを受けて、偽の記事が含む言語上の手掛かりを認識するニューラルネットワークによるフェイクニュース自動検出システムの開発が、研究者によって行われるようになった。

 こうしたシステムは、管理された環境においてかなり高い精度でフェイクニュースを見分けられるようになっている。

残された2つの課題をどのように解決したか

 だが、こうしたシステムには2つの課題が残されていた。

 第1の課題は「ニューラルネットワークがトレーニング時に、どのような言語パターンを分析するのか分からない」という“ブラックボックス”問題だ。

 第2の課題は、ニューラルネットワークを、あらかじめ選択したトピックを用いてトレーニングし、結果をテストすることから生まれる。学習結果を全く新しいトピックに一般化した場合、フェイクニュースの検出精度が下がる可能性もある。

 MITの研究チームは、この両方の課題に取り組んだ結果を論文にまとめ、Conference and Workshop on Neural Information Processing Systemsで発表した。

 研究チームは、フェイクニュースと本物のニュースが含む言語パターンを検出できるよう学習するディープラーニングモデルを開発した。研究チームの取り組みの一部はブラックボックスを開けて、モデルが予測を行うために捉える単語とフレーズを明らかにしている。さらに、研究チームはこのディープラーニングモデルのテストを、トレーニングで使用しなかった新しいトピックについて行った。

 このアプローチでは個々の記事を、言語パターンのみに基づいてフェイクニュースかどうか判定する。これは、ニュース読者向けのアプリケーションで求められる機能に近い。なお、従来のフェイクニュース検出システムは、ニューステキストと確度が高いソース情報(Wikipediaの記事やWebサイトなど)の組み合わせに基づいて記事を判定している。

 研究チームのメンバーであるポスドク研究員のXavier Boix氏は次のように述べている。「われわれは、言語(の癖)のみに基づく検出システムの判定プロセスが、どのようなものか理解したかった。フェイクニュースの文言がどのようなものかについての洞察を提供するからだ」

 「機械学習や人工知能(AI)がはらむ重大な問題は、答えが得られても、なぜその答えが得られたのか分からないことだ。こうした内部の仕組みが明らかになれば、ディープラーニングによるフェイクニュース検出システムの信頼性を理解する第一歩になる」(論文の第一筆者であるMIT学部学生のNicole O’Brien氏)

何が分かったのか

 研究チームが開発したディープラーニングモデルは、本物のニュースまたはフェイクニュース内に現れる傾向がある単語のセットを特定できた。

 得られた結果は、フェイクニュースと本物のニュースの間にある微妙ながら一貫性のある違いを示しているという。例えばフェイクニュースでは、誇張や最上級の表現が好まれ、本物のニュースでは、言葉の選択がより慎重だ。

  • 本物のニュースで多用される動詞の例:adapting、aiming、appeared、backing、campaigning、challenges、compared、debating、delivering、disappointed、drew、emerged、ensuring、fails、hit、improve、insisting、kept、leaving、offering、play、praised、ran、reducing、resisted、running、scrambling、staring、takes、urged
  • フェイクニュースで多用される動詞の例:breaking、carrying、continue elect、fed、follow、getting、happening、help、indicate、let、lying、need、occupying、please、provided、registered、seems、spending、stated、sworn、tell、translated、want、went

 研究チームが開発したモデルは畳み込みニューラルネットワークで、これをフェイクニュースと本物のニュースのデータセットでトレーニングした。フェイクニュースについては、フェイクニュースの研究用データセットとして広く知られている「Kaggle」を使用し、本物のニュースについては、「New York Times」の記事2000本以上と、英国の新聞「The Guardian」の記事9000本以上を使用した。

 研究チームのメンバーは、言葉のさまざまなバイアスを管理することが難しいことなどを挙げ、ニューラルネットワークによるフェイクニュース検出システムを実用化するには、厳密なテストを重ねる必要があるとしている。

 例えば、研究チームはトレーニング用の本物のニュースとして、主にNew York TimesとThe Guardianの記事を使用したが、フェイクニュース検出システムが、「本物のニュースは、この2つの報道機関の記事作成スタイルに必ず従わなければならない」と誤って学習しないようにするには、どうしたらよいか、ここに問題が残っているという。

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。