「文節内の主語に当たる単語を区別して学習」　日本語自然言語処理ライブラリのバージョンアップ版をリクルートが提供：「機能性食品」をどこで区切るのか

リクルートは、Python向けの日本語自然言語処理ライブラリ「GiNZA version 4.0」をオープンソースで無償提供した。多言語対応自然言語処理フレームワーク「spaCy version 2.3」に合わせてライブラリを再設計した。

» 2020年08月18日 08時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　リクルートは2020年8月17日、Python向けの日本語自然言語処理ライブラリ「GiNZA version 4.0」をOSS（オープンソースソフトウェア）で無償提供した。同社の研究開発機関であるMegagon Labsが開発した。

複合語の区切り方を3段階から選択できる

　GiNZA version 4.0は、多言語対応自然言語処理フレームワーク「spaCy version 2.3」に合わせてライブラリを再設計した。「GiNZA version 3.0」よりも日本語解析の精度を高め、高速に処理できるという。日本語文法の解析機能を強化して、日本語の文節を単位とする解析結果が容易に得られるようにした。リクルートは「文節内の主語に当たる単語を区別して学習することで、文節単位での依存構造を捉えることが可能だ」としている。

日本語の文節を単位とする解析結果が容易に得られる日本語解析モデル（出展：リクルート）

　ワークスアプリケーションズのワークス徳島人工知能NLP研究所が開発した形態素解析ツール「SudachiPy」を利用しており、複合語の区切り方を3段階から選択できる。例えば「機能性食品」という複合語については、初期設定では「機能性食品」、モードBでは「機能性＋食品」、モードAでは「機能＋性＋食品」という結果が得られる。

　「GiNZA」は、機械学習を利用した日本語自然言語処理に関心があり、日本語に特化した自然言語解析を行いたいと考えているエンジニアに向けて開発されたオープンソースライブラリ。2020年1月に公開したversion 3.0は、6カ月間で2万3000ダウンロードを超えたという。

Python向け日本語自然言語処理ライブラリ「GiNZA」、リクルートがGitHubで公開
リクルートのAI研究機関であるMegagon Labsは、Python向け日本語自然言語処理ライブラリ「GiNZA」をオープンソースとしてGitHubで公開した。国立国語研究所のテキストコーパスを利用した学習済みモデルも組み込んだ。
「Gensim」による機械学習を使った自然言語分析の基本――「NLTK」「潜在的ディリクレ配分法（LDA）」「Word2vec」とは
最近流行の機械学習／Deep Learningを試してみたいという人のために、Pythonを使った機械学習について主要なライブラリ／ツールの使い方を中心に解説する連載。今回は機械学習を使った自然言語分析のライブラリ「Gensim」について解説します。
ディープラーニングで自動筆記－ Kerasを用いた文書生成（前編）
ディープラーニングによる自然言語処理の一つ「文書生成」にチャレンジしてみよう。ネットワークにLSTM、ライブラリにKeras＋TensorFlowを採用し、徐々に精度を改善していくステップを説明する。