TISは、機械学習で感情を解析するためのデータセット「chABSA-dataset」を無償公開する。各文に対して、ネガティブまたはポジティブといった感情分類に加え、「何が」ネガティブまたはポジティブなのかという観点を表す情報が含まれる。
TISは2018年4月10日、機械学習で感情を解析するためのデータセット「chABSA-dataset」を無償公開すると発表した。chABSA-datasetは、上場企業の2016年度有価証券報告書を利用して作られたデータセット。各文に対して、ネガティブまたはポジティブといった感情分類に加え、「何が」ネガティブまたはポジティブなのかという観点を表す情報が含まれている。
TISでは、観点単位の感情分類を機械学習モデルに学習させることで、より高度な解析を実現できるとしている。さらに、上場企業の有価証券報告書を基に作成しているため、企業分析にも活用できるという。
TISでは、機械学習や自然言語処理を利用した業務の生産性向上についての研究開発に取り組んでいる。今回発表したデータセットの基になっている観点要約技術は、その研究の一環だ。観点要約とは、決定事項やToDoといった特定の観点に沿って文書をまとめることで、まとめられた文書の短さより、必要な情報が漏れていないかどうかという点が重視される。
例えば「商品Aの売り上げが上がった」という文を、chABSA-datasetを利用して感情解析すると、「ポジティブ」という情報に加え、「商品A」の「売り上げ」が「上がった」という情報も返す。これによって、「何が」良い評価あるいは悪い評価なのかを判断する機械学習モデルを開発でき、複数の商品を同じ観点で評価できるようになる。
このような観点要約技術には、ユーザーが指示する「観点」を理解し、それに沿って文書をまとめることが必要になる。TISでは、こうした解析を実現するには、自然言語処理の「転移学習」が有力だという。転移学習とは、あるタスクに向けて学習させた機械学習モデルを、少ないデータで別のタスク用に「転移」させる技術。同社では今後、転移学習を用いて、少量のデータでカスタマイズ可能な自然言語処理の機能も開発する予定だ。
Copyright © ITmedia, Inc. All Rights Reserved.