- - PR -
HTMLをパースする方法
1
投稿者 | 投稿内容 | ||||
---|---|---|---|---|---|
|
投稿日時: 2006-03-14 22:05
お世話になります。
XMLはDOMを使いパースすることができますが HTMLをパースする方法はありますでしょうか? Java以外の言語でも結構ですのでご教授お願い致します。 以上 | ||||
|
投稿日時: 2006-03-14 23:13
javax.swing.text.htmlパッケージとか・・・
http://people.apache.org/~andyc/neko/doc/html/ NekoHTMLというパーサとか・・・ 探してみると色々ありますね。 Javaに拘らない&IE互換のDOMが欲しいのであれば、 IEにパースさせた結果を出力する外部プログラムを起動するっていうのも いいのではないでしょうか。 | ||||
|
投稿日時: 2006-03-15 00:37
一番お手軽なのは JavaScript から DOM にアクセスする方法でしょうか。
あとこのスレッド↓が参考になるかもしれません。 http://www.atmarkit.co.jp/bbs/phpBB/viewtopic.php?topic=28131&forum=12 | ||||
|
投稿日時: 2006-06-14 22:28
以下はJavaでHTMLを解析するサンプルみたいですよ。
http://goodjob.boy.jp/chirashinoura/detail/id/54.html | ||||
|
投稿日時: 2006-06-14 22:46
たぶん DOM よりは SAX に近いものだと思いますが、HTMLParser とか。
| ||||
|
投稿日時: 2006-06-14 23:16
別解として HTML->XQuery->データ ってのはどうでしょう。 http://www-06.ibm.com/jp/developerworks/java/050331/j_j-jtp03225.html に詳しいですが。 JTidy+SAXON(http://www.saxonica.com/) で適当にHTMLをDOM(というかデータとして)に取り出してました。HTMLをまんまパースするより のちのちも効率的かと。 | ||||
|
投稿日時: 2006-06-17 21:59
新作なら
Today's News John Cowan has released TagSoup 1.0, an open source, Java-language, SAX parser for nasty, ugly HTML. XOM uses TagSoup to convert JavaDoc to well-formed XHTML. http://mercury.ccil.org/~cowan/XML/tagsoup/ ====================== 不正なXML/HTMLもパース可能 - ShaniXmlParser http://journal.mycom.co.jp/news/2006/07/11/342.html [ メッセージ編集済み 編集者: MMX 編集日時 2006-07-13 09:48 ] |
1