いろいろなソースからデータを取り込むなどすると、表内でデータが重複してしまうことがある。このような場合、重複データに色付けして確認したり、不要な重複データを削除したりする必要があるだろう。本Tech TIPSでは、Googleスプレッドシートで、重複データを色付けしたり、削除したりする方法を紹介する。
対象:Googleスプレッドシート
複数の人で作業を行っていたり、いろいろなソースからデータを取り込んだりすると、表内でデータが重複してしまうことがある。どういったデータが重複しているのか、単純に削除してしまっていいデータなのかどうかを確認したいこともあるだろう。
「Microsoft Excel(エクセル)」では、[ホーム]タブにある[条件付き書式]を利用することで、比較的簡単に重複するデータに色付けをして判別することが可能である(Tech TIPS「【Excel】重複データを色付けして瞬時にダブりをチェックする」参照のこと)。しかし、Googleスプレッドシートの[条件付き書式]には、「重複する値」という項目がなく、簡単に重複データに色付けできない。
そこで本Tech TIPSでは、Googleスプレッドシートで重複データに色付けして、データの重複を確認する方法を紹介しよう。
Googleスプレッドシートの[条件付き書式]には「重複する値」がないので、重複データに色付けするにはCOUNTIF関数を用いる。COUNTIF関数は、選択されたセル範囲で同じ値を数える関数だ。少し面倒に思えるが、重複するデータの数が2つ以上の場合だけでなく、4つ以上など、重複数を柔軟に設定可能になるというメリットもある。
Googleスプレッドシートで重複データをチェックしたい表を開き、重複をチェックしたい列や行を選択してから、[表示形式]メニューの[条件付き書式]を選択する。シートの右側に「条件付き書式設定ルール」サイドパネルが開くので、「書式ルール」欄のプルダウンリストで[カスタム数式]を選択する。
「値または数式」と書かれた入力ボックスが表示されるので、「A」列の重複をチェックするのであれば、ここに以下の数式を入力する(選択したセル範囲の先頭が「A2」セルの場合)。COUNTIF関数の2番目の引数(検索条件)は、必ず選択したセル範囲の先頭セルを指定する必要がある。これがずれると、重複データとは異なるセルに色付けされてしまうので注意してほしい。
=COUNTIF($A:$A,A2)>=2
デフォルトでは、重複データが緑色の背景になる設定になっているが、これを変更したいのであれば、「書式設定のスタイル」欄で項目をクリックして、好みの設定を選択すればよい。
表の中に重複データがあるかどうかだけを確認したいのであれば、[データ]メニューの[データクリーンアップ]−[クリーンアップの候補]を使うという方法がある。
[クリーンアップの候補]を選択すると、シートの右側に「クリーンアップの候補」サイドパネルが開き、重複データが存在する場合は、「重複している行」欄に重複していると思われるデータ(重複データの候補)が表示される。
ここに重複データの候補が表示されなければ、重複データが存在しない可能性が高い。
なお重複データの候補の下には、[無視]と[削除]の2つのボタンがあり、[削除]ボタンをクリックすれば、重複データが削除できる。この際、オリジナルのデータが削除されてしまうので、データを削除する場合は十分確認の上、実行してほしい。
また、この[クリーンアップの候補]では、行の全ての項目が一致している必要があるため、住所の表記にゆらぎがあるような場合は検出から漏れてしまうので注意してほしい。
重複データが不要な場合、特にデータ量が多いと、COUNTIF関数を使って色付けした重複データを確認しながら削除するのは面倒だ。
そのような場合は、対象の表内のセルを選択してから[データ]メニューの[データクリーンアップ]−[重複を削除]を選択して、重複データを一括削除すればよい。[重複を削除]を選択すると、[重複を削除]ダイアログが表示され、重複の有無を調べる列(分析する列)が選択できる。また、「データにヘッダー行が含まれている」にチェックを入れると、先頭行が「ヘッダー(見出し)」として認識される。
重複が見つかると、行番号が小さい方が残り、大きい方が削除される。
分析対象として複数の列にチェックを入れると、それらの列のデータが全て重複している行だけが削除対象となる。例えば、同姓同名を誤って削除しないようするには、「名前」列と「電話番号」列の両方にチェックを入れて、両方のデータが重複しているものを削除させればよい。
分析する列として設定していない列に、他の重複するデータ(行)と異なるデータが入力されている場合、削除されてしまうことがあるので注意が必要だ。
この[重複を削除]では、オリジナルのデータが削除されるので、別のシートにコピーしてから実行し、COUNTIF関数で色付けしたデータと比較して対象となるデータが削除されていることを確認するなどした方がよい。
Copyright© Digital Advantage Corp. All Rights Reserved.