「文節内の主語に当たる単語を区別して学習」　日本語自然言語処理ライブラリのバージョンアップ版をリクルートが提供：「機能性食品」をどこで区切るのか

リクルートは、Python向けの日本語自然言語処理ライブラリ「GiNZA version 4.0」をオープンソースで無償提供した。多言語対応自然言語処理フレームワーク「spaCy version 2.3」に合わせてライブラリを再設計した。

[＠IT] PC用表示関連情報

LINE

Hatena

　リクルートは2020年8月17日、Python向けの日本語自然言語処理ライブラリ「GiNZA version 4.0」をOSS（オープンソースソフトウェア）で無償提供した。同社の研究開発機関であるMegagon Labsが開発した。

複合語の区切り方を3段階から選択できる

　GiNZA version 4.0は、多言語対応自然言語処理フレームワーク「spaCy version 2.3」に合わせてライブラリを再設計した。「GiNZA version 3.0」よりも日本語解析の精度を高め、高速に処理できるという。日本語文法の解析機能を強化して、日本語の文節を単位とする解析結果が容易に得られるようにした。リクルートは「文節内の主語に当たる単語を区別して学習することで、文節単位での依存構造を捉えることが可能だ」としている。

日本語の文節を単位とする解析結果が容易に得られる日本語解析モデル（出展：リクルート）

　ワークスアプリケーションズのワークス徳島人工知能NLP研究所が開発した形態素解析ツール「SudachiPy」を利用しており、複合語の区切り方を3段階から選択できる。例えば「機能性食品」という複合語については、初期設定では「機能性食品」、モードBでは「機能性＋食品」、モードAでは「機能＋性＋食品」という結果が得られる。

　「GiNZA」は、機械学習を利用した日本語自然言語処理に関心があり、日本語に特化した自然言語解析を行いたいと考えているエンジニアに向けて開発されたオープンソースライブラリ。2020年1月に公開したversion 3.0は、6カ月間で2万3000ダウンロードを超えたという。

「文節内の主語に当たる単語を区別して学習」　日本語自然言語処理ライブラリのバージョンアップ版をリクルートが提供：「機能性食品」をどこで区切るのか

複合語の区切り方を3段階から選択できる

関連記事

関連リンク

Smart & Social 記事ランキング

「文節内の主語に当たる単語を区別して学習」 日本語自然言語処理ライブラリのバージョンアップ版をリクルートが提供：「機能性食品」をどこで区切るのか

複合語の区切り方を3段階から選択できる

関連記事

関連リンク

Smart & Social 記事ランキング

「文節内の主語に当たる単語を区別して学習」　日本語自然言語処理ライブラリのバージョンアップ版をリクルートが提供：「機能性食品」をどこで区切るのか