- PR -

HTMLをパースする方法

1
投稿者投稿内容
oki
ベテラン
会議室デビュー日: 2004/12/18
投稿数: 55
投稿日時: 2006-03-14 22:05
お世話になります。

XMLはDOMを使いパースすることができますが
HTMLをパースする方法はありますでしょうか?

Java以外の言語でも結構ですのでご教授お願い致します。

以上
かつのり
ぬし
会議室デビュー日: 2004/03/18
投稿数: 2015
お住まい・勤務地: 札幌
投稿日時: 2006-03-14 23:13
javax.swing.text.htmlパッケージとか・・・
http://people.apache.org/~andyc/neko/doc/html/
NekoHTMLというパーサとか・・・
探してみると色々ありますね。

Javaに拘らない&IE互換のDOMが欲しいのであれば、
IEにパースさせた結果を出力する外部プログラムを起動するっていうのも
いいのではないでしょうか。
山本 裕介
ぬし
会議室デビュー日: 2003/05/22
投稿数: 2415
お住まい・勤務地: 恵比寿
投稿日時: 2006-03-15 00:37
一番お手軽なのは JavaScript から DOM にアクセスする方法でしょうか。
あとこのスレッド↓が参考になるかもしれません。
http://www.atmarkit.co.jp/bbs/phpBB/viewtopic.php?topic=28131&forum=12
ケンタロウ
会議室デビュー日: 2006/06/14
投稿数: 1
投稿日時: 2006-06-14 22:28
以下はJavaでHTMLを解析するサンプルみたいですよ。
http://goodjob.boy.jp/chirashinoura/detail/id/54.html
ちいにぃ
大ベテラン
会議室デビュー日: 2002/05/28
投稿数: 244
投稿日時: 2006-06-14 22:46
たぶん DOM よりは SAX に近いものだと思いますが、HTMLParser とか。
加納正和
ぬし
会議室デビュー日: 2004/01/28
投稿数: 332
お住まい・勤務地: 首都圏
投稿日時: 2006-06-14 23:16
引用:

hohoさんの書き込み (2006-03-14 22:05) より:
HTMLをパースする方法はありますでしょうか?



別解として
HTML->XQuery->データ
ってのはどうでしょう。

http://www-06.ibm.com/jp/developerworks/java/050331/j_j-jtp03225.html
に詳しいですが。

JTidy+SAXON(http://www.saxonica.com/)

で適当にHTMLをDOM(というかデータとして)に取り出してました。HTMLをまんまパースするより
のちのちも効率的かと。

MMX
ぬし
会議室デビュー日: 2001/10/26
投稿数: 861
投稿日時: 2006-06-17 21:59
新作なら
Today's News
John Cowan has released TagSoup 1.0, an open source, Java-language, SAX parser for nasty, ugly HTML. XOM uses TagSoup to convert JavaDoc to well-formed XHTML.
http://mercury.ccil.org/~cowan/XML/tagsoup/
======================
不正なXML/HTMLもパース可能 - ShaniXmlParser
http://journal.mycom.co.jp/news/2006/07/11/342.html

[ メッセージ編集済み 編集者: MMX 編集日時 2006-07-13 09:48 ]
1

スキルアップ/キャリアアップ(JOB@IT)