ミシガン大が「フェイクニュース検出システム」開発、言語分析アルゴリズムを利用：人間以上の検出率

ミシガン大学の研究者が、フェイクニュース記事を人間並みに、時には人間以上に正確に見分ける言語分析アルゴリズムベースのシステムを開発した。「うその言語的特徴」を識別することで、人間よりも最大6ポイント高い検出率を実現できたという。

» 2018年08月27日 12時00分公開

[＠IT]

　米ミシガン大学の研究者が、フェイクニュース記事における「うその言語的特徴」を識別するアルゴリズムベースのシステムを開発した。同システムがフェイクニュースを人間並みに、時には人間以上に正確に見分けることができることも実証した。

　人間の判別成功率が70％にとどまる中、同システムは、最大76％の成功率でフェイクニュース記事を検出した。このシステムの言語分析アプローチは、最新のフェイクニュース記事が公開された直後でも有効だという。つまり、他の記事と照合して事実確認を行い、うそを暴けない場合でも、フェイクニュース記事を見分けられる可能性があるという。

ラダ・ミハルシー氏

　ミシガン大学のコンピュータ科学工学教授でこのシステムのプロジェクトに携わるラダ・ミハルシー氏は、フェイクニュースを自動的に判別できるソリューションがあれば、こうしたうそ記事の横行に苦労しているWebサイトにとって、重要なツールになると語る。フェイクニュースは多くの場合、クリックの獲得や世論操作を目的に作成されている。

　だが、フェイクニュースを、実際に影響を及ぼす前に特定することは難しい。ニュースアグリゲーターやSMSサイトは現在、ニュースの洪水に必ずしも対応できない人間の編集者に大きく依存しているからだ。さらに、うそを暴く現行技術は、外部の事実検証に依存することが多いが、これは公開されて間もなく、他の情報源がないフェイクニュース記事を扱いにくい。

言語分析でフェイクニュースを見分ける

　これに対し、言語分析による今回の検出システムは異なるアプローチを採用した。文法構造や、単語選択、句読法、複雑さといった定量化可能な属性を分析する。このアプローチは人間よりも高速であり、多種多様なニュースに適用できる。

　「ニュースサイトやソーシャルメディアサイトのフロントエンドやバックエンドで利用できる言語分析ベースのさまざまなアプリケーションが考えられる」とミハルシー氏は説明する。

　「例えば、個々の記事やWebサイト全体の信頼度の推計をユーザーに提示したり、Webサイトのバックエンドで、調査が必要な記事をふるいにかけたりすることが可能になるだろう。76％の成功率では、エラーが発生する可能性もかなりあるが、人間が行う作業と組み合わせれば、貴重な洞察が得られる」（ミハルシー氏）

意外にも学習データを集めにくいフェイクニュース

　ミハルシー氏によると、テキストを分析する言語アルゴリズム自体は、現在、かなり一般的だ。フェイクニュースの検出システムを構築する難しさは、アルゴリズム自体の開発ではなく、アルゴリズムをトレーニングする適切なデータを見つけることにあるという。

　フェイクニュースは現れてもすぐに消えるため、収集が困難だ。さらにジャンルが多岐にわたることから、収集プロセスも複雑になる。風刺ニュースは集めやすいが、フェイクニュースを検出するアルゴリズムのトレーニングにはあまり役に立たない。

　そこでミハルシー氏の研究チームは、オンラインチームへのクラウドソーシングによってトレーニング用データをそろえた。

　クラウドソーシングマーケットプレース「Amazon Mechanical Turk」を利用して集めたオンラインチームのメンバーは、対価と引き換えに、実際の短いニュースをフェイクニュースに書き換え、記事のジャーナリスティックなスタイルを模倣した。こうして研究チームは、合計500本の本物のニュースとフェイクニュースのデータセットを入手した。

　続いて研究チームは、ラベル付きの記事のペアにアルゴリズムを適用した。アルゴリズムは言語分析を行って、実際のニュースとフェイクニュースを判別するよう自身をトレーニングした。さらにチームは、Webから直接集めた実際のニュースとフェイクニュースのデータセットを使ってアルゴリズムをチューニングした結果、76％の成功率を達成できたという。

　研究チームは、構築した新システムと使用したデータセットを無料で公開している。このシステムは将来、記事のリンクやコメントといったメタデータの統合により、さらに精緻化される見通しだ。

TensorFlowを使った機械学習を論文抽出に適用、ヒントは大学入試問題対策の裏ワザ
医師が、ディープラーニングフレームワークのTensorFlowを自ら用い、診療ガイドラインの作成における「心の折れる作業」である論文スクリーニング作業を自動化。効果を実証した。ヒントは共通一次試験の対策本にあった。
Google、Cloud AutoMLでテキスト分析と翻訳に対応、認知系AIサービスも強化
Googleは2018年7月24日（米国時間）、年次イベント「Google Cloud Next ’18」で、GoogleCloud Platform（GCP）における認知系AIサービスの強化を発表した。Cloud AutoMLではテキスト分析と翻訳が追加。また、既存の認知系APIサービスにおける強化も発表された。
Recurrent Neural Networkとは何か、他のニューラルネットワークと何が違うのか
本連載では、Deep Learningの中でも、時系列データを扱うRecurrent Neural Networkについて解説。加えて、その応用方法として原稿校正（誤字脱字の検知）の自動化について解説します。