- PR -

JAVAでの文字の区別の方法

1
投稿者投稿内容
みかん
会議室デビュー日: 2003/01/26
投稿数: 6
投稿日時: 2003-01-26 12:42
こんにちは。
私はJavaで形態素解析をするプログラムを作成しようとしています。解析をするにあたり条件として漢字とそれ以外の文字にわけようと思っています。しかし、漢字を区別する(判別する?)方法がわかりません。コードとか使えるものはありますか?どなたか助けてください。どんなことでも良いのでプログラム作成にあたりアイディアがありましたらお願いします。
parolibre
常連さん
会議室デビュー日: 2002/12/30
投稿数: 33
投稿日時: 2003-01-26 14:50
# 形態素解析ならば、辞書を作る/どうするかの方が先なのではないかなぁ…と思いつつ。

使用している文字コードがunicodeであるならば、java.lang.Character.UnicodeBlockの
ofメソッドを使えば、文字ブロックを掴まえることが出来ます。
平仮名ならば「Character.UnicodeBlock.HIRAGANA」が返ってくるはずです。

「どうしてもJavaを使い自前で実装しなければならない」というので無ければ、↓のようなも
のも開発されているようです。
http://yamaguch.sytes.net/~tora/opensource/sen/

ちなみに私は、chasenをサーバモードで立ち上げて、そこにJava経由でアクセスするライ
ブラリを作って使っています。
_________________
--
parolibre
みかん
会議室デビュー日: 2003/01/26
投稿数: 6
投稿日時: 2003-01-26 19:12
お返事ありがとうございます。
形態素解析のプログラム作成を心がけているものの実はなにからはじめればよいのかをわかっていません。日本語の文を入力して文節に区切って表示させるというのが目標です。できる限りJAVAで作りたいのです。辞書の作成方法とか基本的な作り方を教えて下さい。お願いします。
parolibre
常連さん
会議室デビュー日: 2002/12/30
投稿数: 33
投稿日時: 2003-01-26 19:22
引用:

形態素解析のプログラム作成を心がけているものの実はなにからはじめればよいのかをわかっていません。日本語の文を入力して文節に区切って表示させるというのが目標です。できる限りJAVAで作りたいのです。辞書の作成方法とか基本的な作り方を教えて下さい。お願いします。


形態素解析の基本から実装まで全部を掲示板上で行うというのは不可能というものですよ(^^;
完全にオリジナルを作りたいと言うことであれば、まずは自然言語について学習されることをお勧めします。
↓の本などがお勧めです。

岩波講座 ソフトウェア科学 15  自然言語処理
http://www.iwanami.co.jp/.BOOKS/01/5/0103550.html

完全にオリジナルでなくとも良いが、Javaで実装をしたいと言うことであれば、「分かち書
き」をキーワードにインターネット上の情報を検索されればたくさん見つかると思います。

とりあえず、メジャーどころでは↓のあたりでしょうか…。
http://kakasi.namazu.org/

_________________
--
parolibre
みかん
会議室デビュー日: 2003/01/26
投稿数: 6
投稿日時: 2003-01-26 20:25
ありがとうございます。
さがしてみます。
なにか情報がありましたらよろしくお願いします。
1

スキルアップ/キャリアアップ(JOB@IT)