「文節内の主語に当たる単語を区別して学習」 日本語自然言語処理ライブラリのバージョンアップ版をリクルートが提供「機能性食品」をどこで区切るのか

リクルートは、Python向けの日本語自然言語処理ライブラリ「GiNZA version 4.0」をオープンソースで無償提供した。多言語対応自然言語処理フレームワーク「spaCy version 2.3」に合わせてライブラリを再設計した。

» 2020年08月18日 08時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 リクルートは2020年8月17日、Python向けの日本語自然言語処理ライブラリ「GiNZA version 4.0」をOSS(オープンソースソフトウェア)で無償提供した。同社の研究開発機関であるMegagon Labsが開発した。

複合語の区切り方を3段階から選択できる

 GiNZA version 4.0は、多言語対応自然言語処理フレームワーク「spaCy version 2.3」に合わせてライブラリを再設計した。「GiNZA version 3.0」よりも日本語解析の精度を高め、高速に処理できるという。日本語文法の解析機能を強化して、日本語の文節を単位とする解析結果が容易に得られるようにした。リクルートは「文節内の主語に当たる単語を区別して学習することで、文節単位での依存構造を捉えることが可能だ」としている。

画像 日本語の文節を単位とする解析結果が容易に得られる日本語解析モデル(出展:リクルート

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。