自然言語処理の基礎データに貢献

グーグルが日本語N-gramデータを公開

2007/11/01

　グーグルは11月1日、大規模日本語コーパスのN-gramデータを公開した。N-gramは自然言語処理の領域で、単語同士の結びつきを統計的に処理する計算モデル。「グーグルで検索」「グーグルで調べる」「グーグルで探す」のように特定の単語（例では“グーグル”）と、他の単語の結びつきを予測できる。

　N-gramは特定の位置にある単語が何であるかを、その直前の単語、さらに前の単語……、とN個分さかのぼって推測できるという仮説に基づいている。かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに使われている。

　公開したのはグーグルがWebサイトから抽出した約200億文（約2550億単語）の日本語データから作成したN-gramデータ（1～7gram）。データは特定非営利活動法人言語資源協会を通じて配布しており、団体・個人の区別なく利用できる。これまで米グーグルは英語について同様のデータを公開していた。今回新たに単語分割処理など日本語独自の処理を加えてデータを作成した。作成にはグーグルの大規模分散処理システムMapReduceを用い、数千台規模のPCクラスタを使った。

　今回のデータは、グーグル社内の「20％ルール」に基づいて、工藤拓氏と賀沢秀人氏が研究した成果。グーグルでは勤務時間の20％を研究開発など、自分の好きなテーマに使ってよい社内ルールがある。

アイティメディアの提供サービス

キャリアアップ

転職／派遣情報を探す

年収６００万円！エンジニア向けの求人満載。転職希望者必見

エンジニアの転職なら【転職サーチ】

「ITmedia マーケティング」新着記事

「サイト内検索」＆「ライブチャット」売れ筋TOP5（2025年5月）
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

「ECプラットフォーム」売れ筋TOP10（2025年5月）
今週は、ECプラットフォーム製品（ECサイト構築ツール）の国内売れ筋TOP10を紹介します。

「パーソナライゼーション」＆「A／Bテスト」ツール売れ筋TOP5（2025年5月）
今週は、パーソナライゼーション製品と「A／Bテスト」ツールの国内売れ筋各TOP5を紹介し...

「ITmedia マーケティング」新着記事

＠ITトップ｜NeｗsInsight トップ｜会議室｜利用規約｜プライバシーポリシー｜サイトマップ

Copyright © 2000-2017 ITmedia Inc.
著作権はアイティメディア株式会社またはその記事の筆者に属します。（著作権について）
当サイトに掲載されている記事や画像などの無断転載を禁止します。
「＠IT」「＠IT自分戦略研究所」「＠IT情報マネジメント」「JOB＠IT」「＠ITハイブックス」「ITmedia」は、アイティメディア株式会社の登録商標です。
当サイトに関するお問い合わせは「＠ITへのお問い合わせ」をご覧ください。

自然言語処理の基礎データに貢献

グーグルが日本語N-gramデータを公開

関連リンク

関連記事

最新記事

アイティメディアの提供サービス

キャリアアップ

転職／派遣情報を探す

年収６００万円！エンジニア向けの求人満載。転職希望者必見

エンジニアの転職なら【転職サーチ】

「ITmedia マーケティング」新着記事