第35回 要素や属性の名前に使用できる文字の規定 Page 1
XML 1.0は、1998年にW3Cから勧告として公開された。当然中身は英語で、しかもEBNFと呼ばれる式によって重要な部分が記述してある。この連載では、XML 1.0を深く理解するために、そのXML 1.0勧告の最新版「Extensible Markup Language (XML) 1.0 (Third Edition)」をだれでも分かるように、やさしく読み解きながら解説していくことを目指している。(編集局)
川俣 晶
株式会社ピーデー
2005/7/6
主な内容 --Page 1--
文字クラスについて名前とトークン再び 文字クラス(Character Classes) --Page 2--
文字クラスのルール--Page 3--
付録:リストの生成使い捨てプログラム |
前回は「A References(附属書A(規定)文献)」を読んだ。XML 1.0勧告は、それ単体で完結した文書ではない。いくつかの外部の文書に依存して、XMLというメタ言語を規定している。どのような文書に依存しているのか、そして、なぜ外部の文書を参照すべきなのか、それについて説明を試みた。「UFO=空飛ぶ円盤」という不謹慎な事例で解説を行ったが、そこにある「1次情報の価値」という問題は重要なので、心に留めておくとよいだろう。
さて、今回は「B Character Classes(附属書B(規定)文字クラス)」を読んでいこう。ここは、XMLの利用者であればだれでも関係のある名前文字の種類を規定している。つまり、要素や属性の名前に使用してよい文字と、使用してはならない文字の区別を具体的に規定している部分である。これは単なる文字の表ではなく、Unicodeの文字データベースと深いかかわりがある。それらについて解説を行おう。
編集注:この連載では、XML 1.0勧告であるW3Cの「Extensible Markup Language (XML) 1.0 (Third Edition)」(英語)を参照し、その日本語訳として、日本工業規格 JIS X 4159:2002(Second Edition相当。リンク先は該当規格の原案ですが、最終版とほぼ同等の内容です)と追補1として出版予定の原稿(Third Edition対応)を参照しています。本文中のピンクの地の部分は、XML 1.0勧告の原文を示しています。 |
本連載が始まって間もないころ、第5〜6回にわたり、名前とトークンについて読んだ。例えば、名前(生成規則[5] Name)とは、要素や属性の名前の書き方のルールであり、名前トークン(生成規則[7] Nmtoken)とは、NMTOKEN型の属性値の書き方を定めるルールであった。
これらは、主に以下の生成規則によって、規定されていた。
|
さて、第5〜6回の時点でこの生成規則を完全に理解することはできなかった。なぜなら、この生成規則から参照されている生成規則のLetter、Digit、CombiningChar、Extenderについての定義がこの時点ではまだ出現していなかったからである。そして、それらはずっと説明されることなく放置状態になっていた。要素や属性に使用してよい文字とは、あらゆるXMLユーザーに密接に関係する重要な問題であるにもかかわらず、ずっと放置されてきたのである。
しかし放置はここで終わる。
長らくお待たせした!
いまこそ、その生成規則をここに示すことができるのである。
それでは、AppendicesのCharacter Classes(文字クラス)を読み始めよう。といっても、大半は文字番号のリストに費やされており、文章は少ない。
文字番号のリストの扱いについては大いに悩んだ。番号のリストを見ても、それが何を意味するのか直感的に理解できないためである。もちろん、番号で文字を示すというのは、このような技術仕様文書では有益な選択である。例えば日本語の文字についての規定を読むとき、読み手のPCに日本語フォントがない場合、日本語の文字は「?」マークなどに置き換えられて表示され、個々の文字を区別して識別することができない。しかし、番号で表記されていれば、フォントの有無に関係なく、文字の違いを識別することができる。また、似て非なる文字の区別も完ぺきに行うことができる。カタカナの「ヘ」とひらがなの「へ」など、よく似た文字はあるが、日本語に親しんでいない読者どころか、生粋の日本語ネイティブスピーカーですら見誤ることがあるだろう。しかし、番号を使えば識別は容易である。厳密さという意味では、番号による表記は非常に優れている。
しかし、概要を把握したい場合には、番号による表記はあまり扱いやすくない。そこで、筆者は悩んだわけである。直感的な分かりやすさは放棄し、その番号の文字が許される、とだけ述べて飛ばしていこうかとも思った。しかし、それでは読者には何の印象も残らない。逆に、徹底的に個々の文字がどのような文字であるかを説明するという選択もある。つまり、それぞれの番号の文字が具体的にどの文字を示すかを克明に説明するのである。たとえその文字を表示するためのフォントが読者のPCにないとしても、それがどのような文字かを文章で説明すれば分かるだろう。しかし、リストに含まれる大半の文字は、おそらく筆者には理解できない他言語の文字であり、それらはおそらく大半の読者には使う機会がないものだろう。そのような文字に労力を注ぎ込むことは建設的ではないと考えた。
今回は、妥協点として、番号を文字に置き換えた文字リストを作成した。文字に置き換えてしまえば、見ることによって直感的にどのような文字が対象となっているかが分かるだろう。もちろん、このようなリストは厳密ではないが、概要を把握するには有用である。もし、厳密な確認が必要であれば、生成規則に書かれた数値をチェックすればよい。
もちろん、このやり方には問題がある。リストに含まれているすべての文字を表示できるフォントがない場合に、リストの表示が不完全になってしまうのである。しかし、実用上、それは重大な問題ではないと判断した。なぜなら、ある利用者が使う可能性のある文字をすべて含んだフォントを、彼/彼女は持っていると考えられるためである。そのフォントを使って閲覧すれば、少なくとも彼/彼女が必要とする範囲の文字についてはチェック可能である。
では本文を読み始めよう。
Following the characteristics defined in the Unicode standard, characters are classed as base characters (among others, these contain the alphabetic characters of the Latin alphabet), ideographic characters, and combining characters (among others, this class contains most diacritics). Digits and extenders are also distinguished. |
Unicode標準に定義するプロパティに従って、文字は基底文字(BaseChar)(これらは、ラテンアルファベットのアルファベット文字を含む。)、漢字などの文字(ideographic)および結合文字(CombiningChar)(このクラスはほとんどのダイアクリティカルマークを含む。)にクラス分けする。10進数値(Digit)およびエクステンダ(Extender)のクラスもある。 |
ここで注目すべきは、Unicode標準に定義するプロパティに従うという記述である。ここでは、文字をいくつかに分類しているが、その根拠はUnicode標準にあるという。具体的にいえば、ここでいうUnicode標準とは、Unicode 2.0であることが、後の文章で明確に示されている。そして、Unicode 2.0の定義に従い、文字をクラス分けしているわけである。ここでいうクラス分けとは、学校で新学期に行う「太郎くんは1年1組に、花子ちゃんは1年2組に入れよう」という作業ではなく、文字を分類することをいう。具体的に、ここでは5種類に分けている。
以下、すでに述べた文字リストをそれぞれの名前からリンクしてある。フォントがなければ表示できない問題があることを踏まえつつ、文字リストを見ると直感的に把握しやすいので、クリックしてみていただきたい。
まず基底文字(BaseChar)。これは、欧米の言語のアルファベットや、ひらがな、カタカナ、ハングル文字などを含む。
次は漢字などの文字(ideographic)。文字どおり、主に漢字を集めたものであるが、もちろん日本以外の国で使われる漢字も含まれる。
結合文字(CombiningChar)は、複数のコードを結合して1つの文字を表現するために使用される文字である(サロゲートペアのことではないことに注意)。例えば、結合用のサーカムフレックス アクセント(U+0302)は、結合文字に含まれるが、これを「A」の後に記述すると、「Â」(サーカムフレックス付きラテン大文字「A」)を記述したことになる。
10進数値(Digit)は、10進数の値を記述するために使用される文字である。慣れ親しんだアラビア数字(0〜9)以外に、ほかの言語で使われる同等の文字も含まれる。
エクステンダ(Extender)は、 同じ文字が続くことを示す文字である。例えば「々」などがこれに含まれる。
次は、コードの表である。しかし、このコード表を読む必要があるのは、厳密に特定のコードが含まれるかをチェックする場合や、XMLプロセッサを実装する場合に限られるだろう。
Characters
|
すでに述べたとおり、上記のリストは、以下の文字表で(フォントのある範囲について)文字のリストとして見ることができる。
フォントがあるにもかかわらず、Webブラウザでそのフォントを使用して表示できない場合は、ファイルに保存したうえで、フォントを自由に変更できるワープロソフトなどに読み込ませて、フォントを切り替えつつ見るとよいだろう。(次ページへ続く)
1/3 |
Index | |
やさしく読む「XML
1.0勧告」 第35回 要素や属性の名前に使用できる文字の規定 |
|
Page 1 ・文字クラスについて ・名前とトークン再び ・文字クラス(Character Classes) |
|
Page
2 ・文字クラスのルール |
|
Page
3 ・付録:リストの生成使い捨てプログラム |
連載 やさしく読む「XML 1.0勧告」 |
- QAフレームワーク:仕様ガイドラインが勧告に昇格 (2005/10/21)
データベースの急速なXML対応に後押しされてか、9月に入って「XQuery」や「XPath」に関係したドラフトが一気に11本も更新された - XML勧告を記述するXMLspecとは何か (2005/10/12)
「XML 1.0勧告」はXMLspec DTDで記述され、XSLTによって生成されている。これはXMLが本当に役立っている具体的な証である - 文字符号化方式にまつわるジレンマ (2005/9/13)
文字符号化方式(UTF-8、シフトJISなど)を自動検出するには、ニワトリと卵の関係にあるジレンマを解消する仕組みが必要となる - XMLキー管理仕様(XKMS 2.0)が勧告に昇格 (2005/8/16)
セキュリティ関連のXML仕様に進展あり。また、日本発の新しいXMLソフトウェアアーキテクチャ「xfy technology」の詳細も紹介する
|
|