- PR -

HTMLタグ

1
投稿者投稿内容
kei111
会議室デビュー日: 2005/03/03
投稿数: 10
投稿日時: 2005-04-26 21:06


[ メッセージ編集済み 編集者: kei111 編集日時 2005-04-26 22:53 ]
nori
常連さん
会議室デビュー日: 2003/12/16
投稿数: 34
お住まい・勤務地: 新幹線線路の隣
投稿日時: 2005-04-26 22:03
引用:

kei111さんの書き込み (2005-04-26 21:06) より:
正規表現で <[^>]*?> で簡単にできればいいと思っていましたが、問題がある状態です。
http://www.din.or.jp/~ohzaki/perl.htm
などに記載されていた正規表現などを使おうかと考えたのですが、どうもあまり使いたくないと思っています。




「どうもあまり使いたくない」理由はなんでしょうか?
かつのり
ぬし
会議室デビュー日: 2004/03/18
投稿数: 2015
お住まい・勤務地: 札幌
投稿日時: 2005-04-26 22:56
javax.swing.text.html.HTMLEditorKit.Parser
javax.swing.text.html.HTMLEditorKit.ParserCallback

この2つのクラスを使って解析することができます。
タグを削除するのではなく

・解析時にタグを無視
・テキストノード部分をハンドルしてテキスト取得

というような感じで処理すれば、
タグの存在しないテキスト部分のみの文字列を取得することが可能です。
kei111
会議室デビュー日: 2005/03/03
投稿数: 10
投稿日時: 2005-04-26 23:41
nori様
>「どうもあまり使いたくない」理由はなんでしょうか?
複雑だったからです。
それとソースが分かりにくくなると思ったからです。


かつのり様アドバイスありがとうございます。
自分もjavax.swing.text.htmlパッケージは見ていたのですが、
javax.swing.text.html.HTML.Tagまわりなどにしか目が行きませんでした。
どうもありがとうございます。
かつのり
ぬし
会議室デビュー日: 2004/03/18
投稿数: 2015
お住まい・勤務地: 札幌
投稿日時: 2005-04-26 23:54
正規表現を使用したほうが、わかりやすく簡潔になると思います。

特定の文字列処理をゴリゴリ実装する方がいらっしゃいますが、
正規表現で処理が可能であれば、正規表現で実装すべきです。

何故かと言うと、正規表現を見れば
どのような文字列処理を行いたいのか一目瞭然になるからです。
逆にいちいち実装すると、後々のメンテ・テスト・機能追加が大変になります。

ですので、正規表現での処理をお勧めします。
Kissinger
ぬし
会議室デビュー日: 2002/04/30
投稿数: 428
お住まい・勤務地: 愛知県
投稿日時: 2005-04-30 15:26
kei111さん、こんにちは。

このスレッドが何だかよくわかりません。
最初の投稿内容を完全の消去されたようですが、
余程の不都合が無い限り、消去、大幅な修正は
しないほうが良いと思います。
1

スキルアップ/キャリアアップ(JOB@IT)