機械学習向け教師データ作成ツール、TISがオープンソースで公開:3種類のデータ作成に向く
TISは機械学習に向けた教師データ作成ツール「doccano」をオープンソースソフトウェアとして公開した。テキスト分類、系列ラベリング、系列変換という3つの基本的なタスクで使用するデータを作成しやすいという。
TISは2018年11月6日、自然言語処理や機械学習に向けた教師データ作成ツール「doccano(ドッカーノ)」をオープンソースソフトウェア(OSS)として公開すると発表した。GitHubから入手できる。
doccanoは、機械学習などで教師データに使うラベル付きデータを作成するアノテーションツール。「テキスト分類」、文中の人名や地名などを特定する「系列ラベリング」、要約や翻訳といった「系列変換」という3つの基本的なタスクで使用するデータを作成しやすいという。
これらの基本的なタスクは表計算ソフトなどの帳票ツールでも実行可能だが、例えば系列ラベリングでは文字単位、単語単位でデータを作る必要があるため、帳票ツールだけでは作成が困難だという。
機械学習や自然言語処理の開発には教師データが不可欠だ。ところが教師データの作成は非常に手間がかかる。例えば、TISが公開した上場企業の有価証券報告書をベースに作成したデータセットでも、教師データを作成する際の作業負荷が課題になったという。doccanoを開発したきっかけは、こうした課題を解決することだとしている。
doccanoに残った課題の一つは、ラベル定義を明確にするといったデータ作成における本質的な難しさをサポートし切れていない点にあるのだという。今後は公開したdoccanoについてユーザーからのフィードバックを基に機能を改善する予定だ。自然言語処理や機械学習に必要なデータ作成業務を効率化することで、これらの市場拡大を目指すとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- Pythonの機械学習ライブラリ「scikit-learn」で実践する「教師あり学習」「教師なし学習」
最近流行の機械学習/Deep Learningを試してみたいという人のために、Pythonを使った機械学習について主要なライブラリ/ツールの使い方を中心に解説する連載。今回は、Pythonの機械学習ライブラリ「scikit-learn」を使って「教師あり学習」「教師なし学習」などについて説明します。 - 少ない学習データでも機械学習の効果を高める、NECが機械学習向け技術を開発
NECは、学習データが少ない場合の機械学習効果を高める技術を開発した。データ収集の初期段階やデータ収集コストが高い環境のように十分な学習データが得られない状況でも、機械学習技術を活用できるという。 - 人工知能はどうやって「学ぶ」のか――教師あり学習、教師なし学習、強化学習
Pepperや自動運転車などの登場で、エンジニアではない一般の人にも身近になりつつある「ロボット」。ロボットには「人工知能/AI」を中心にさまざまなソフトウェア技術が使われている。本連載では、ソフトウェアとしてのロボットについて、基本的な用語からビジネスへの応用までを解説していく。今回は、人工知能つまりコンピュータが「機械学習」という技術を使って、どうやって学習していくのかについて具体例を交えて解説する。