【 diff 】コマンド(応用編その2)――テキストファイルの差分を出力する:Linux基本コマンドTips(105)
本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は「diff」コマンドです。
本連載では、Linuxの基本的なコマンドについて、基本的な書式からオプション、具体的な実行例までを分かりやすく紹介していきます。今回はテキストファイルを比較して差分を出力する「diff」コマンドです。diffコマンドについては第102回(基本編)と、第103回(基本編その2)、第104回(応用編)でも扱っています。
diffコマンドとは?
「diff」は、2つのテキストファイルを比較し、異なる箇所を出力するコマンドです。「diff ファイル1 ファイル2」と実行して、2つのテキストファイル(ファイル1、ファイル2)を比較します。ディレクトリ単位で比較することも可能です。
diffコマンドの主なオプション
diffコマンドのオプションを3種類に分けて紹介します。最初はコマンドの出力に関する主なオプションです。
短いオプション | 長いオプション | 意味 |
---|---|---|
-c | --context | 違いのある箇所をファイルごとに出力し、!記号で変更箇所を示す(context形式、第103回参照) |
-C 行数 | --context=行数 | context形式で出力する行数を指定(デフォルトは3行) |
-u | --unified | 違いのある箇所を1つにまとめて、-記号と+記号で変更箇所を示す(unified形式、第103回参照) |
-U 行数 | --unified=行数 | unified形式で出力する行数を指定(デフォルトは前後3行) |
-行数 | 異なっている部分の前後の行数を指定(-cまたは-u指定時) | |
-L ラベル | --label=ラベル | context形式とunified形式のヘッダに、ファイル名の代わりに出力するラベル(短縮形式「-L」は非推奨、第103回参照) |
-p | --show-c-function | 変更がC言語のどの関数で行われたのかを表示する。「-F'^[_a-zA-Z$]'」相当 |
-F 正規表現 | --show-function-line=正規表現 | context形式とunified形式で、各差分のブロックに対し、その前方がパターンにマッチした最後の行の一部を表示 |
-T | --initial-tab | normal形式やcontext形式で、テキストの前にスペースでなくタブを出力する(行中でのタブによる桁ぞろえが見やすくなる) |
-t | --expand-tabs | タブによる位置合わせを保存するため、出力のタブをスペースに展開する |
--inhibit-hunk-merge | 隣接する差分ブロックをマージしない | |
-D 名前 | --ifdef=名前 | if-then-else形式で出力する(“名前”はプリプロセッサの条件マクロで使用する名前) |
--changed-group-format=フォーマット | if-then-else形式で、両方のファイルで異なる行を出力する際のフォーマット | |
--line-format=フォーマット | if-then-else形式で、全ての入力行を出力する際のフォーマット | |
--new-group-format=フォーマット | if-then-else形式で、2番目のファイルだけにある行グループを出力する際のフォーマット | |
--new-line-format=フォーマット | if-then-else形式で、2番目のファイルだけにある行の出力に使用するフォーマット | |
--old-group-format=フォーマット | if-then-else形式で、1番目のファイルだけにある行グループを出力する際のフォーマット | |
--old-line-format=フォーマット | if-then-else形式で、1番目のファイルだけにある行の出力に使用するフォーマット | |
--unchanged-group-format=フォーマット | if-then-else形式で、両方のファイルに共通な行グループを出力する際のフォーマット | |
--unchanged-line-format=フォーマット | if-then-else形式で、両方のファイルに共通な行の出力に使用するフォーマット | |
-y | --side-by-side | 2列で出力する(side-by-side) |
-W 文字数 | --width=文字数 | side-by-side形式で出力する幅 |
--left-column | side-by-side形式で、共通な行は左側の列にのみ表示する | |
--suppress-common-lines | side-by-side形式で共通な行を表示しない | |
-e | --ed | edコマンドのスクリプト形式で出力する |
-n | --rcs | RCS(バージョン管理システム)形式の差分を出力する |
-l | --paginate | prコマンドによるページ付けを行う |
--strip-trailing-cr | 行末のCRを取り除く | |
-q | --brief | ファイルが違うかどうかだけを出力する |
-s | --report-identical-files | 2つのファイルが同じだったときも出力する |
diffコマンドの比較方法に関する主なオプションは次の通りです。
短いオプション | 長いオプション | 意味 |
---|---|---|
-i | --ignore-case | 大文字と小文字の違いを無視する |
-B | --ignore-blank-lines | 空行の有無を無視する |
-b | --ignore-space-change | スペースの数だけが異なる場合は違いを無視する |
-E | --ignore-tab-expansion | タブ展開によるスペースの変更を無視する |
-w | --ignore-all-space | 空白を無視して比較する |
-I 正規表現 | --ignore-matching-lines=正規表現 | パターンにマッチするような行を挿入・削除するだけの変更を無視する |
-H | --speed-large-files | 小さな変更が大量にあるような大きなファイルを高速に扱うためにヒューリスティックな手法を用いる(短縮形式「-H」は非推奨) |
-d | --minimal | より小さな差分を生成する(動作が遅くなる) |
--horizon-lines=行数 | 差分の前後にある共通部分を保持する行数 | |
-a | --text | ファイルを強制的にテキストと見なして1行ずつ比較する |
diffコマンドのディレクトリ比較に関する主なオプションは次の通りです。
短いオプション | 長いオプション | 意味 |
---|---|---|
-r | --recursive | ディレクトリを比較するとき、サブディレクトリも再帰的に比較する |
-S ファイル名 | --starting-file=ファイル名 | ディレクトリを比較する際の開始ファイル(中断した比較を続行する際に利用) |
--ignore-file-name-case | ファイルを比較する際に、ファイル名の大文字小文字を無視する | |
--no-ignore-file-name-case | ファイルを比較する際に、ファイル名の大文字小文字を考慮する | |
-N | --new-file | ディレクトリを比較する際、片方のディレクトリにのみファイルが存在していた場合、“新規ファイルとの比較”として動作する |
-P | --unidirectional-new-file | 2番目のディレクトリにのみファイルが存在していた場合のみ、新規ファイルとの比較として動作する(短縮形式「-P」は非推奨) |
-x パターン | --exclude=パターン | ディレクトリを比較する際に、除外するファイルを指定する |
-X リスト | --exclude-from=リスト | ディレクトリを比較する際に、無視する名前のパターンが書かれたファイルを読み込む |
空白を区別する
「diff ファイル1 ファイル2」でテキストファイルを比較します。このとき、空白の有無による内容の違いを無視するかどうか、オプションで設定できます。
タブ文字をスペースに展開(変更)した結果を無視する場合は「-E」、空白文字の数の違いを無視する場合は「-b」、空白の存在を無視して比較する場合は「-w」を使います。
それぞれの違いを見てみましょう。
list3-1.csvとlist3-2.csvは、内容がほぼ同じファイルです。違いは空白の種類と有無だけです(画面1)。1行目は同じに見えますが、list3-1.csvではタブが、list3-2.csvでは空白が入っています。タブが入っているかどうかは、catコマンドの-tオプション(連載第1回)で確認できます(画面2)。
「-E」を指定すると、タブ展開によるスペースの変更を無視します。画面3には「apple」を含む1行目の違いを無視した結果を示しました。なお、テキストファイルのタブを空白文字に変換する場合はexpandコマンド(連載第61回)が便利です。
「-b」の場合、空白文字の個数を無視します。“空白が入っているかどうか”という観点で、1行目(apple)と2行目(banana)を同一行とみなしています(画面4)。「-b」を指定しても、空白文字があるかないかを区別しますから、3行目(lemon)は異なっています。
「-w」では、空白を全て無視します。このため、1〜3行目を同一行として扱い、「違いはない」という結果になります。違いがないことをはっきりメッセージとして表示するには「-s」オプションを付けて実行します(画面5)。
コマンド実行例
diff -E ファイル1 ファイル2
(タブ展開によるスペースの変更を無視する)(画面3)
diff -b ファイル1 ファイル2
(スペースの数だけが異なる場合は違いを無視する)(画面4)
diff -w ファイル1 ファイル2
(空白を無視して比較する)(画面5)
筆者紹介
西村 めぐみ(にしむら めぐみ)
PC-9801NからのDOSユーザー(LinuxはPC-486DXから)。1992年より生産管理のパッケージソフトウェアの開発およびサポート業務を担当。のち退社し、ライターとして活動。著書に『図解でわかるLinux』『らぶらぶLinuxシリーズ』『はじめてでもわかるSQLとデータ設計』『シェルの基本テクニック』など。2011年より、地方自治体の在宅就業支援事業にてPC基礎およびMicrosoft Office関連の教材作成およびeラーニング指導を担当。
Copyright © ITmedia, Inc. All Rights Reserved.