- PR -

正規分布とはいえないこんな確率分布に適したモデルをご存知ありませんか。

1
投稿者投稿内容
platini
大ベテラン
会議室デビュー日: 2002/12/03
投稿数: 193
投稿日時: 2006-09-20 13:52
日本語漢字かなの文章のページをOCRスキャンします。
10000ページくらい仮にスキャンしたとします。

このとき、恐らく識字率は98%とか99%だとかにピークが来ると
思われます。ページによっては91%とか92%のデータも発生するでしょう。
しかし、98%とか99%を平均値とした正規分布になるかといえば、
100%より上の値はないので、正規分布とはいえません。
このような偏った確率分布を表すのに適した分布モデルをご存じないでしょうか。
未記入
常連さん
会議室デビュー日: 2005/07/04
投稿数: 31
投稿日時: 2006-09-20 15:15
引用:

platiniさんの書き込み (2006-09-20 13:52) より:
日本語漢字かなの文章のページをOCRスキャンします。
10000ページくらい仮にスキャンしたとします。

このとき、恐らく識字率は98%とか99%だとかにピークが来ると
思われます。ページによっては91%とか92%のデータも発生するでしょう。
しかし、98%とか99%を平均値とした正規分布になるかといえば、
100%より上の値はないので、正規分布とはいえません。
このような偏った確率分布を表すのに適した分布モデルをご存じないでしょうか。



形状としてはベータ分布に近そうだけど、確率モデルとしては正しいのかなあ。
platini
大ベテラン
会議室デビュー日: 2002/12/03
投稿数: 193
投稿日時: 2006-09-20 18:45
情報提供ありがとうございます。

実際にベータ分布が適当かどうかはわかりませんが、
ベータ分布をキーワードに検索することで、
新たな情報源のページに行き当たることができました。

もう少し調べるうちによいものに当りそうです。
まずは調べてみます。ありがとうございました。

========================================== 以下の文章を加筆

http://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/beta/beta.htm

で、パラメータを替えてグラフ化してくれるベータ分布が見つかりました。
大体、思っていた分布形状に近いものができそうです。
助かりました!!!

[ メッセージ編集済み 編集者: platini 編集日時 2006-09-20 19:01 ]
1

スキルアップ/キャリアアップ(JOB@IT)