- PR -

形態素解析

1
投稿者投稿内容
みかん
会議室デビュー日: 2003/01/26
投稿数: 6
投稿日時: 2003-01-30 02:39
Javaで形態素解析するプログラムの作成を心がけています。
ネットや文献から調べたのですが、作成するためには辞書作成が必要だとわかりました。
しかし、どこでどのように作成したらよいのかがわかりません。
どなたか形態素解析のプログラムを作成している方がいればアドバイスをお願いします。
できるだけ具体的に具体例をまじえて答えていただけたら助かります。
目標としては日本文限定です。よろしくお願いします。
mikan
ベテラン
会議室デビュー日: 2002/08/19
投稿数: 58
投稿日時: 2003-01-30 09:18
はじめまして、みかん@オレンジ畑です。

どんな情報を集められたのかは知りませんが、googleで形態素解析を検索した結果を見ただけでも実現が容易でないと感じるのですが、みかんさんは「形態素解析を理解しているがJavaはビギナー」ですか?それとも「形態素解析もビギナー」ですか?

私は形態素解析はやったことはありませんが、学生の頃に自然言語処理の実習で英日翻訳プログラムはやりました。せいぜい中学レベルの文法の、単純な単語しか課題にはありませんでしたが、それでもかなりな量の辞書を作りましたよ。

ある形態素解析の紹介サイトには20万語の辞書があるとか、かなり膨大な話になっています。

他にも、いくつかの解析システムの紹介や、大学関係者の研究論文とか読みましたけど、仮に私が同じ立場にあったらば、自作よりはparolibreさんの方法
引用:

ちなみに私は、chasenをサーバモードで立ち上げて、そこにJava経由でアクセスするライブラリを作って使っています。


をとるかもです。
みかん
会議室デビュー日: 2003/01/26
投稿数: 6
投稿日時: 2003-01-31 15:14
お返事ありがとうございます。

Javaではいくつかプログラム作成してはいますがマスターしているわけではありません。形態素解析は初挑戦です。

本格的なすべての日本文を解析するプログラムを一人で作成することは無理だと承知しています。簡単な単純な10語程度限定の文を解析できれば良いと思っています。
みかんさんは学生のころ辞書を作成したということですがどのエディタでどのように入力したのか教えていただけませんか?時間はかかると思いますが自然言語処理を使ったプログラムを自分で作成したいのでよろしくお願いします。辞書作成する意欲とやる気だけはバッチリあるのですが、何からはじめればよいのかがわからなくて困っています。
mikan
ベテラン
会議室デビュー日: 2002/08/19
投稿数: 58
投稿日時: 2003-01-31 16:04
みかん@オレンジ畑です。

私がやっていたときは、ただのテキストエディタです。
Unixに住んでいたからEmacsですね。

中身は...たしか、英単語、動詞|形容詞|名詞...の種別、SVOCでどれに当たるか、そのときの訳語...くらいの情報がCSVにしてあったと思います。
入力文を単語に分解、単語ごとの品詞と訳語の組み合わせを列挙して、文法規則に一致するものを採用...というパターンマッチ的な処理でしたから、あんまり役に立たないかもです。
日本語だと、結構シビアでしょうねぇ...
言語工学研究所の紹介を読むと、どんな辞書を作ればいいのか見当もつきません。
上記リンク先の例文「大きな地震が来ないことを祈ります。」にしても、どうやったら分解できるのやら。

あんまりいい加減なことを言ってもダメなんで、この道の先輩諸氏に登場していただける日を心待ちにしております。「Java Solution」でやっててもいいのかな、と思いつつ...

parolibre
常連さん
会議室デビュー日: 2002/12/30
投稿数: 33
投稿日時: 2003-01-31 21:38
引用:

日本語だと、結構シビアでしょうねぇ...


よくある問題として、「私の庭に二羽鶏がいた。」というのを形態素分解以前に、
分かち書きで引っかかると思います。
前述の文をひらがな化すると「わたしのにわににわにわとりがいた」と、単純な文法解析
ルーチンと辞書だけで解決しようとするとすでにお手上げになってしまいます。

# Java Solutionの話題ではないですね。とりあえず「分かち書き」をオープンソースで
# kakasiあたりのソースコードを読んで、コミュニティに参加し(MLがあります)、ノウハ
# ウを蓄えて、独自実装というのが最短距離なのではないかと。

_________________
--
parolibre
1

スキルアップ/キャリアアップ(JOB@IT)