＠IT総合トップ > 旧＠IT会議室 > ＠ITクラブ Cafe > テキスト整形のアルゴリズム

- PR -

テキスト整形のアルゴリズム

1

投稿者	投稿内容
あのことこのこ会議室デビュー日: 2003/06/08 投稿数: 10	投稿日時: 2006-03-21 02:09 性能関連のデータをグラフ化(手作業)していて思いました自動化したい･･･とでもそれには乗り越えなくてはいけない問題がありますそこで皆様のお知恵を拝借したいと思っています・性能データは「大体30分毎」にポーリングで収集されてテキストに追記されます・データ取得ツールの仕様で数時間に一回、「大体30分毎で無いデータ」が取得されてしまいます。これは必要ありません。削除対象です。上記の条件で不要部分を取り除くにはどの様なスクリプトでどの様な方法でやっつけてやりますか？ ※下記に例を示します 1.スクリプト(PHP/Perl/Ruby etc) 2.方法 ================================================================= 06.03.07 07:22:40 06.03.07 07:51:40 ←不要 06.03.07 07:53:31 06.03.07 08:23:31 06.03.07 08:53:31 06.03.07 09:23:31 06.03.07 09:53:31 06.03.07 10:23:31 06.03.07 10:53:31 06.03.07 11:23:31 06.03.07 11:52:31 ←不要 06.03.07 11:53:36 06.03.07 12:23:36 06.03.07 12:53:36 06.03.07 13:23:36 06.03.07 13:53:36 06.03.07 14:23:36 06.03.07 14:53:36 06.03.07 15:23:36 06.03.07 15:52:36 ←不要 06.03.07 15:53:42 06.03.07 16:23:42 =================================================================
かつのりぬし会議室デビュー日: 2004/03/18 投稿数: 2015 お住まい・勤務地: 札幌	投稿日時: 2006-03-21 02:23 「大体30分毎で無いデータ」って仰っていますが、大体というものをプログラムで表現できません。誤差何分以内までが30分毎となるかを決定する必要があります。入出力機能の有無とプラットフォームでスクリプトは代わると思いますが、一般的な言語であれば perlでもphpでもVBScriptでもJavaScriptでも、何でも可能と思います。（入出力機能の有無が重要）フィルタ的なツールであれば、１．入力テキストを開く２．出力テキストを開く３．行を解析（行数分）４．行の時間を保持５．前回の保持された時間との差が閾値以内であれば、３へ６．出力テキストに行の内容を書き出して３へ７．最後にファイルをクローズって感じでできませんかね。
MMX ぬし会議室デビュー日: 2001/10/26 投稿数: 861	投稿日時: 2006-03-21 10:39 「大体4時間毎のデータ」が余分に混入している、ように見えます。 ------------- クイックandダーティーなら 06.03.07 07:22:40 の 06.03.07 07:2 桁までで uniq でしょうか。 DBでSQLクイズに強そうな人に相談してみましょう。 [ メッセージ編集済み編集者: MMX 編集日時 2006-03-21 10:48 ]
あのことこのこ会議室デビュー日: 2003/06/08 投稿数: 10	投稿日時: 2006-03-21 13:18 回答有難う御座います＞誤差何分以内までが30分毎となるかを決定＞5.前回の保持された時間との差が閾値以内であれば、3へなるほど一行一行で前回時間と比べてフィルタリングしていけば不要部分を取り除く事が出来そうです課題となるのは下記の様な場合、「閾値の設定」ですね 1行目　06.03.07 07:22:40 2行目　06.03.07 07:51:40 ←不要 3行目　06.03.07 07:53:31 ＞「大体4時間毎のデータ」が余分に混入しているなるほど！そういう見方もありますね＞SQL-uniq 目から鱗でしたちょっと調べてみます

1

スキルアップ／キャリアアップ（JOB@IT）