どんな人名も正しく表示? IPAの新フォントを試そう!:OSS界のちょっと気になる話(1)(2/2 ページ)
今日から始まるこの連載では、月に1回のペースで近ごろ注目を集めているOSS関連の話題の中から筆者が気になるものを紹介し、技術的背景を解説していこうと思う。連載初回となる今回は、2011年10月26日にIPA(独立行政法人情報処理推進機構)が提供を始めた「≪IPAmj明朝フォント≫」に焦点を当てたい。(編集部)
異体字を表示させてみよう
実際に異字体セレクタを使って異字体を表示させてみよう。Unicodeコンソーシアムサイトの「Ideographic Variation Database」から、2010年11月14日版の「Charts for the Unicode Ideographic Variation Database(PDF)」をダウンロードしよう。これを見れば、汎用電子コレクションに記載されているベースキャラクタと異体字セレクタのコードが分かる。チャートを見ながらベースキャラクタと汎用電子コレクションの異体字セレクタを組み合わせて異体字を表示させてみる。
異体字データの生成は、zshを使うと案外簡単にできる。例えば環境変数LANGにja_JP.UTF-8を指定した環境で、次のコマンドを実行すれば「渡邉」の「邉」の異体字データを出力できる。
echo "\U00009089\U000e011a"
Windows 7のメモ帳で見ることを想定して、改行コードをWindowsに合わせてzshのシェルスクリプトを、例えば次のように作成する。パスや表示させたい異体字は自分の見たいものに合わせて書き換えてみてほしい。
#!/usr/local/bin/zsh eol='\r\n' for basechar in \ 3917 3836 4105 4543 44B3 4e0e 4e11 4e3b \ 4ea4 4f34 4e26 4f60 504e 50e7 4e30 5029 5085 do echo -n "\U0000${basechar} - " echo -n "\U0000${basechar}\U000e0101 " echo -n "\U0000${basechar}\U000e0102 " echo -n "\U0000${basechar}\U000e0103 " printf ${eol} done
Windows 7のメモ帳で見ると形が違っていることを確認できる(図2)。もちろん、環境に「IPAmj明朝フォント」をインストールして、メモ帳やテキストエディタで使うフォントをIPAmj明朝フォントにしておく必要がある。
Mac OS X Snow LeopardやLionのテキストエディタでも確認できる(図3)。
「渡邉」や「渡邊」の「邉」や「邊」にはほかにも多くの異体字が登録されている。次のようなスクリプトを実行すればそれぞれ確認できる。
#!/usr/local/bin/zsh eol='\r\n' echo -n "\U00009089\U000e010f " echo -n "\U00009089\U000e0110 " echo -n "\U00009089\U000e0111 " echo -n "\U00009089\U000e0112 " echo -n "\U00009089\U000e0113 " echo -n "\U00009089\U000e0114 " echo -n "\U00009089\U000e0115 " echo -n "\U00009089\U000e0116 " echo -n "\U00009089\U000e0117 " echo -n "\U00009089\U000e0118 " printf ${eol} echo -n "\U00009089\U000e0119 " echo -n "\U00009089\U000e011a " echo -n "\U00009089\U000e011b " echo -n "\U00009089\U000e011c " echo -n "\U00009089\U000e011d " printf ${eol} echo -n "\U0000908A\U000e0108 " echo -n "\U0000908A\U000e0109 " echo -n "\U0000908A\U000e010a " echo -n "\U0000908A\U000e010b " echo -n "\U0000908A\U000e010c " echo -n "\U0000908A\U000e010d " echo -n "\U0000908A\U000e010e " echo -n "\U0000908A\U000e010f " echo -n "\U0000908A\U000e0110 " printf ${eol}
Windows 7のメモ帳で確認すると図4のようになる。
図5はMac OS X Lionで表示したところだ。
現在はまだ利用できる環境が限られているが、すでに利用できる環境がある、試せる環境が身近にあるということが大きなポイントだ。
これからも進化するIPAmj明朝フォント
先に説明したように、Windows 7やMac OS X Snow Leopard/LionであればOS標準の機能として異体字に対応している。しかし、これらのOSの初期状態で利用できるフォントには、日本語漢字の異体字は入っていないので、今のところは広く使われる機能にはならないだろうが、実際に利用できるというのは興味深いところだ。
IPAmj明朝フォントが注目を浴びる理由としては、次のようなポイントを挙げられる。
- IPAmj明朝フォントで利用する異体字がUnicodeに登録されている。
- IPAmj明朝フォントは、オープンソースライセンスであるIPAフォントライセンスv1.0のもとで提供されている。
- IPAmj明朝フォントは、戸籍統一文字や住民基本台帳ネットワーク統一文字などに対応した6万字ものグリフを持っている。
行政機関では基盤フォントとして使われていくことになるだろう。そして、行政機関だけでなく、一般人も利用できるという点が特に興味深い。例えば、これまでファイル名などに人名を付けようとすると、表現できない文字をなんらかの別の方法で表現するか、または外字を使うしかなかった。これからは外字を使うことなく、正しい形の文字を利用できる。OSやプログラミング言語の提供するAPIが充実してくれば、異体字を含む文字列同士の比較も精密にできるようになるだろう(異体字を別の文字と見なすか、同じ文字とするか、などなど)。
IPAmj明朝フォントはこれからも修正が加わっていくだろう。新しい形のフォントも登場するかもしれない。LinuxやFreeBSDなどのディストリビューションにもそろそろパッケージが登場する時期だ。最初からIPAmj明朝フォントを収録するディストリビューションも現れるかもしれない。これからアプリケーションやプログラミング言語の対応が進めば、徐々に扱いやすくなっていく。開発者の皆さんには、ぜひ一度触ってみていただきたいフォントだ。
著者紹介
オングス代表取締役。
後藤大地
@ITへの寄稿、MYCOMジャーナルにおけるニュース執筆のほか、アプリケーション開発やシステム構築、『改訂第二版 FreeBSDビギナーズバイブル』『D言語パーフェクトガイド』『UNIX本格マスター 基礎編〜Linux&FreeBSDを使いこなすための第一歩〜』など著書多数。
Copyright © ITmedia, Inc. All Rights Reserved.