- - PR -
CSVファイル中の不要行削除方法について
1
投稿者 | 投稿内容 | ||||
---|---|---|---|---|---|
|
投稿日時: 2007-09-04 17:33
よろしくおねがいします。
レコード数が1000万行のCSVファイルがあるのですが、そのなかに同じレコードが複数あります。そのレコードが削除できればレコード数も激減するのですが、 何かよいやり方などありませんでしょうか。 たとえば、コマンドプロンプトで実行して不要行削除するとか。 ちなみにACCESSで取り込みSQL実行を試みると1Gを超えるので無理です。 | ||||
|
投稿日時: 2007-09-04 17:52
いったん特徴的な項目ごとに別ファイルに分割保存して、それぞれのファイルで重複除去というのはどうでしょうか。
| ||||
|
投稿日時: 2007-09-04 18:19
VBScript でも書いてファイルを作り直せば OK だったりするのでしょうか?
これは 「表示」 するだけなので、小さいファイルで試さないと死にます。 _________________ C# と VB.NET の入門サイト じゃんぬねっと日誌 | ||||
|
投稿日時: 2007-09-04 18:20
cygwinが使えるなら、sortとuniqで簡単にできそうですが。
Win32版sortやuniqでも良さそうですね。 | ||||
|
投稿日時: 2007-09-04 20:35
ソートされているなら、
1.1行読み込む 2.覚えておく 3.前行と同じなら書き出さない 4.前行と違うなら書き出す 5.1へ戻る で出来ると思います。(プログラムで) ACCESSでダメなら、SQLServerやらOracleやらMySQLやら色々あると思います。 別に自動取り込み機能を使わなくても、コードで1行ずつインサートすればよいと思います。 |
1