- PR -

HTMLをパースする方法

投稿者

投稿内容

oki: ベテラン; 会議室デビュー日: 2004/12/18; 投稿数: 55

投稿日時: 2006-03-14 22:05

お世話になります。

XMLはDOMを使いパースすることができますが
HTMLをパースする方法はありますでしょうか？

Java以外の言語でも結構ですのでご教授お願い致します。

以上

かつのり: ぬし; 会議室デビュー日: 2004/03/18; 投稿数: 2015; お住まい・勤務地: 札幌

投稿日時: 2006-03-14 23:13

javax.swing.text.htmlパッケージとか・・・
http://people.apache.org/~andyc/neko/doc/html/
NekoHTMLというパーサとか・・・
探してみると色々ありますね。

Javaに拘らない＆IE互換のDOMが欲しいのであれば、
IEにパースさせた結果を出力する外部プログラムを起動するっていうのも
いいのではないでしょうか。

山本裕介: ぬし; 会議室デビュー日: 2003/05/22; 投稿数: 2415; お住まい・勤務地: 恵比寿

投稿日時: 2006-03-15 00:37

一番お手軽なのは JavaScript から DOM にアクセスする方法でしょうか。
あとこのスレッド↓が参考になるかもしれません。
http://www.atmarkit.co.jp/bbs/phpBB/viewtopic.php?topic=28131&forum=12

ケンタロウ: 会議室デビュー日: 2006/06/14; 投稿数: 1

投稿日時: 2006-06-14 22:28

以下はJavaでHTMLを解析するサンプルみたいですよ。
http://goodjob.boy.jp/chirashinoura/detail/id/54.html

ちいにぃ: 大ベテラン; 会議室デビュー日: 2002/05/28; 投稿数: 244

投稿日時: 2006-06-14 22:46

たぶん DOM よりは SAX に近いものだと思いますが、HTMLParser とか。

加納正和: ぬし; 会議室デビュー日: 2004/01/28; 投稿数: 332; お住まい・勤務地: 首都圏

投稿日時: 2006-06-14 23:16

引用:
hohoさんの書き込み (2006-03-14 22:05) より: HTMLをパースする方法はありますでしょうか？

別解として
HTML->XQuery->データ
ってのはどうでしょう。

http://www-06.ibm.com/jp/developerworks/java/050331/j_j-jtp03225.html
に詳しいですが。

JTidy+SAXON(http://www.saxonica.com/)

で適当にHTMLをDOM(というかデータとして)に取り出してました。HTMLをまんまパースするより
のちのちも効率的かと。

MMX: ぬし; 会議室デビュー日: 2001/10/26; 投稿数: 861

投稿日時: 2006-06-17 21:59

新作なら
Today's News
John Cowan has released TagSoup 1.0, an open source, Java-language, SAX parser for nasty, ugly HTML. XOM uses TagSoup to convert JavaDoc to well-formed XHTML.
http://mercury.ccil.org/~cowan/XML/tagsoup/
=======＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
不正なXML/HTMLもパース可能 - ShaniXmlParser
http://journal.mycom.co.jp/news/2006/07/11/342.html

[ メッセージ編集済み編集者: MMX 編集日時 2006-07-13 09:48 ]

＠IT SpecialPR

HTMLをパースする方法

スキルアップ／キャリアアップ（JOB@IT）