「何が」良い/悪い評価だったかが分かる――機械学習で感情解析、TISがデータセットを無償公開:企業分析にも活用可能な機械学習のデータセット
TISは、機械学習で感情を解析するためのデータセット「chABSA-dataset」を無償公開する。各文に対して、ネガティブまたはポジティブといった感情分類に加え、「何が」ネガティブまたはポジティブなのかという観点を表す情報が含まれる。
TISは2018年4月10日、機械学習で感情を解析するためのデータセット「chABSA-dataset」を無償公開すると発表した。chABSA-datasetは、上場企業の2016年度有価証券報告書を利用して作られたデータセット。各文に対して、ネガティブまたはポジティブといった感情分類に加え、「何が」ネガティブまたはポジティブなのかという観点を表す情報が含まれている。
TISでは、観点単位の感情分類を機械学習モデルに学習させることで、より高度な解析を実現できるとしている。さらに、上場企業の有価証券報告書を基に作成しているため、企業分析にも活用できるという。
TISでは、機械学習や自然言語処理を利用した業務の生産性向上についての研究開発に取り組んでいる。今回発表したデータセットの基になっている観点要約技術は、その研究の一環だ。観点要約とは、決定事項やToDoといった特定の観点に沿って文書をまとめることで、まとめられた文書の短さより、必要な情報が漏れていないかどうかという点が重視される。
例えば「商品Aの売り上げが上がった」という文を、chABSA-datasetを利用して感情解析すると、「ポジティブ」という情報に加え、「商品A」の「売り上げ」が「上がった」という情報も返す。これによって、「何が」良い評価あるいは悪い評価なのかを判断する機械学習モデルを開発でき、複数の商品を同じ観点で評価できるようになる。
このような観点要約技術には、ユーザーが指示する「観点」を理解し、それに沿って文書をまとめることが必要になる。TISでは、こうした解析を実現するには、自然言語処理の「転移学習」が有力だという。転移学習とは、あるタスクに向けて学習させた機械学習モデルを、少ないデータで別のタスク用に「転移」させる技術。同社では今後、転移学習を用いて、少量のデータでカスタマイズ可能な自然言語処理の機能も開発する予定だ。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- マイクロソフト、AI研究者向けに“10万件”のデータセット「MS MARCO」を無償公開
マイクロソフトが、AIシステムの訓練に使える10万件のデータセット「MS MARCO」を公開した。匿名化された実際のデータを使った質問と回答のセットが含まれ、AIを用いた認知システムの開発を支援できるという。 - Microsoft、「人間のように文書を読んだり、質問に答えたり」するAIを開発
Microsoft Research Asiaが開発したAI技術が、人間並みの読解力スコアを記録した。 - Appier、AIで来客分析・予測を行うマーケター向けデータ分析プラットフォーム「アイソン」をリリース
台湾のAppierは、AIを搭載したデータインテリジェンスプラットフォーム「アイソン」を日本で提供する。同社が提供する膨大な量の消費者行動データと企業のCRMシステムを統合し、AIによって消費者の行動予測分析を可能にするという。