SAXの概要
DOMを用いたプログラミングでは、まずXML文書を構文解析し、文書の構造に対応したオブジェクトのツリーを取得していました。
対してSAXのプログラミングでは、XML文書の構文解析を始める点は同じですが、構文解析を済ませてから処理をするのではなく、構文解析を進めながら必要な情報を取得していきます。
どうやってそんなことを行うのか?という話ですが、原理は簡単です。構文解析が進むにつれ、パーサはタグやテキストデータを読み込んで認識していきます。これらのタグやテキストデータを認識できた時点でイベントを発生させる、というのがSAXパーサのポイントになります。
プログラマーはあらかじめ、コンテントハンドラと呼ばれる特殊な形式のイベントリスナをパーサに登録しておきます。プログラマーはこのコンテントハンドラを通じて、構文解析処理の過程で発生するイベント情報を受け取ることができるようになります。イベント情報には読み込んだタグの名前やテキストデータが含まれていますから、プログラマーはコンテントハンドラを通じて構文解析結果を随時受け取ることができるわけです。
直感的に分かりにくいかもしれませんので、リスト1のサンプル文書を例に取り上げて説明してみましょう。
<?xml version="1.0" encoding="UTF-8" ?> <root> <data>あいうえお</data> </root>
SAXパーサに対して、リスト1のサンプル文書を入力として与えたとしましょう。最初に、1行目の<root>の開始タグが読み込まれたところでイベントが発生します(図1)。
次のイベントは、<data>の直前までのテキスト(改行を含むホワイトスペースです)を読み込んだところで発生します(図2)。
以下同様に、<data>を読み込んだ時点、「あいうえお」を読み込んだ時点……という順序でイベントが発生していきます(図3)。
XML文書のどの部分(タグ、テキストデータなど)を読み込んだかにより、発生するイベントは異なります。それぞれのイベントには、実際に読み込まれたタグの名前や属性の値、テキストデータの値に関する情報が付加されてきます。
これらのイベントを処理するのが、コンテントハンドラというわけです。具体的なインターフェイスは、org.xml.sax.ContentHandlerに定義されています。
実際のパーサについては、インターフェイスのみorg.xml.sax.XMLReaderに定義されています。実装しているクラスはSAXのライブラリによって異なるわけですが、もちろんここはJAXPを用いることで、インターフェイスを実装した適切なパーサをインスタンス化できるわけです*1。
*1:実際のところ、XMLReaderを実装したインスタンスを取得できるのではなく、等価のインターフェイスを持った、javax.xml.parsers.SAXParserクラスのインスタンスを取得できます。
SAXプログラミングの基本的な考え方については以上のとおりですが、実際のプログラミングの流れは以下のようになります。
- イベントハンドラの作成
- パーサファクトリおよびパーサの生成
- 構文解析処理の呼び出し
それぞれの手順について、詳しく見ていくことにしましょう。
Copyright © ITmedia, Inc. All Rights Reserved.