- PR -

UTF-8とUTF16の違いは?

1
投稿者投稿内容
Function
会議室デビュー日: 2001/09/03
投稿数: 16
投稿日時: 2001-09-14 03:48
「UTF-8とUTF16の違いは?」の記事は、個人的に以前から
疑問に思っていたところでした。ただ、今回の記事で
定義は説明されていたのですが、質問にもある「使い分ける
必要はありますか?」という部分の答えが書かれていない
ような気がするのですが・・・

それぞれの定義をよく理解して判断しろ、と言われれば
それまでなんですが、Aというような場合には「UTF-8」を
使って、Bという場合には「UFT-16」を使う、といった
具体例を上げていただけると、理解の助けになります。
@IT新野
@ITエディタ
会議室デビュー日: 2001/07/27
投稿数: 66
投稿日時: 2001-09-18 01:41
Functionさん。@IT新野です。
>それぞれの定義をよく理解して判断しろ、と言われれば
>それまでなんですが、Aというような場合には「UTF-8」を
>使って、Bという場合には「UFT-16」を使う、といった
>具体例を上げていただけると、理解の助けになります。

はい、ご指摘の通りですね。ちょうど公開後に筆者からその部分を
補足した原稿をいただいたので、追加公開する予定でいます。
結果からいうと、どっちかだけ使っていればいい、というわけでは
なく、やはり使い分けが重要みたいです。
公開したら、またご連絡しますね。
では。


@IT新野
@ITエディタ
会議室デビュー日: 2001/07/27
投稿数: 66
投稿日時: 2001-09-18 15:53
さきほど、筆者からいただいた補足原稿を追加しました。
結局のところ、
・英語が多ければUTF-8が有利
・日本語が多ければUTF-16が有利
というところでしょうか。どっちがよく使われているとか、
どこかに統計とかあるとうれしいんですけどね。

にいの
しょむ
ぬし
会議室デビュー日: 2001/09/06
投稿数: 430
投稿日時: 2001-09-20 14:46
Windows で UTF-16 が部分的に使われて…云々というのは、
内部コードの話ではないかと思うのですが…
いわゆる情報交換符合方式としてUTF-16が使われている部分というのはありますか?

@IT新野
@ITエディタ
会議室デビュー日: 2001/07/27
投稿数: 66
投稿日時: 2001-09-20 19:11
しょむさん、こんにちは。@IT新野です。

> Windows で UTF-16 が部分的に使われて…云々というのは、
>内部コードの話ではないかと思うのですが…
>いわゆる情報交換符合方式としてUTF-16が使われている部分というのはありますか?

調べてみました。すぐ分かったのは、Windows 2000のメモ帳でUnicode、Unicode big-endian、UTF-8のいずれかでファイルを保存することができるようです。で、ここのUnicodeってどれじゃい、と思ったら、どうやらUTF-16のLittle Endianのことみたいですね。Windows 2000でUnicodeといったら、デフォルトでこのことなのかもしれません。てことで、マイクロソフト的にはUTF-16がお気に入りなのかも。

というので、お答えになっていれば……
しょむ
ぬし
会議室デビュー日: 2001/09/06
投稿数: 430
投稿日時: 2001-10-01 14:28
お気に入りというより、内部コードとして使うのが楽だからですね。
サロゲートペアを無視すれば1文字=2バイトと考えられるし。

たぶんOffice系も文字部分に使っているはず。
Java も Mozilla も、いわゆる内部コードは UCS-2 の BMP 部分になっているはず。

ほんとに UTF-16 か、って部分は疑問かも。
フル実装だとサロゲートペアに対応しないといけないので、どうなってるかな…
1

スキルアップ/キャリアアップ(JOB@IT)