検索
連載

重複データを色付けしたり、削除したりする【Googleスプレッドシート】Tech TIPS

いろいろなソースからデータを取り込むなどすると、表内でデータが重複してしまうことがある。このような場合、重複データに色付けして確認したり、不要な重複データを削除したりする必要があるだろう。本Tech TIPSでは、Googleスプレッドシートで、重複データを色付けしたり、削除したりする方法を紹介する。

PC用表示 関連情報
Share
Tweet
LINE
Hatena
「Tech TIPS」のインデックス

連載目次

対象:Googleスプレッドシート


Googleスプレッドシートで重複データに色付けする
Googleスプレッドシートで重複データに色付けする
いろいろなソースからデータを取り込むなどすると、表内でデータが重複してしまうことがある。このような場合、不要な重複データを削除するなどの必要があるだろう。本Tech TIPSでは、Googleスプレッドシートで、重複データを色付けしたり、削除したりする方法を紹介する。なお画面の住所データは、「テストデータ・ジェネレータ」で作成したテスト用のダミーデータである。

 複数の人で作業を行っていたり、いろいろなソースからデータを取り込んだりすると、表内でデータが重複してしまうことがある。どういったデータが重複しているのか、単純に削除してしまっていいデータなのかどうかを確認したいこともあるだろう。

 「Microsoft Excel(エクセル)」では、[ホーム]タブにある[条件付き書式]を利用することで、比較的簡単に重複するデータに色付けをして判別することが可能である(Tech TIPS「【Excel】重複データを色付けして瞬時にダブりをチェックする」参照のこと)。しかし、Googleスプレッドシートの[条件付き書式]には、「重複する値」という項目がなく、簡単に重複データに色付けできない。

 そこで本Tech TIPSでは、Googleスプレッドシートで重複データに色付けして、データの重複を確認する方法を紹介しよう。

条件付き書式とCOUNTIF関数を使って重複データを色付けする

 Googleスプレッドシートの[条件付き書式]には「重複する値」がないので、重複データに色付けするにはCOUNTIF関数を用いる。COUNTIF関数は、選択されたセル範囲で同じ値を数える関数だ。少し面倒に思えるが、重複するデータの数が2つ以上の場合だけでなく、4つ以上など、重複数を柔軟に設定可能になるというメリットもある。

 Googleスプレッドシートで重複データをチェックしたい表を開き、重複をチェックしたい列や行を選択してから、[表示形式]メニューの[条件付き書式]を選択する。シートの右側に「条件付き書式設定ルール」サイドパネルが開くので、「書式ルール」欄のプルダウンリストで[カスタム数式]を選択する。

 「値または数式」と書かれた入力ボックスが表示されるので、「A」列の重複をチェックするのであれば、ここに以下の数式を入力する(選択したセル範囲の先頭が「A2」セルの場合)。COUNTIF関数の2番目の引数(検索条件)は、必ず選択したセル範囲の先頭セルを指定する必要がある。これがずれると、重複データとは異なるセルに色付けされてしまうので注意してほしい。

=COUNTIF($A:$A,A2)>=2

2つ以上の重複をチェックする式

 デフォルトでは、重複データが緑色の背景になる設定になっているが、これを変更したいのであれば、「書式設定のスタイル」欄で項目をクリックして、好みの設定を選択すればよい。

条件付き書式とCOUNTIF関数を使って重複データを色付けする(1)
条件付き書式とCOUNTIF関数を使って重複データを色付けする(1)
重複のチェックをしたいセル範囲を選択して、[表示形式]メニューの[条件付き書式]を選択する。
条件付き書式とCOUNTIF関数を使って重複データを色付けする(2)
条件付き書式とCOUNTIF関数を使って重複データを色付けする(2)
[条件付き書式ルール]サイドパネルが開くので、ここで[カスタム数式]を選択し、COUNTIF関数を入力する。デフォルトの書式設定が、重複したデータに反映される。
条件付き書式とCOUNTIF関数を使って重複データを色付けする(3)
条件付き書式とCOUNTIF関数を使って重複データを色付けする(3)
重複データに反映したい背景色などを変更して、[完了]ボタンをクリックする。
条件付き書式とCOUNTIF関数を使って重複データを色付けする(4)
条件付き書式とCOUNTIF関数を使って重複データを色付けする(4)
設定した条件付き書式を削除したい場合は、[条件付き書式ルール]サイドパネルで条件設定ルールにマウスホバーして、表示された[ごみ箱]アイコンをクリックすればよい。

重複データの有無を確認する

 表の中に重複データがあるかどうかだけを確認したいのであれば、[データ]メニューの[データクリーンアップ]−[クリーンアップの候補]を使うという方法がある。

 [クリーンアップの候補]を選択すると、シートの右側に「クリーンアップの候補」サイドパネルが開き、重複データが存在する場合は、「重複している行」欄に重複していると思われるデータ(重複データの候補)が表示される。

 ここに重複データの候補が表示されなければ、重複データが存在しない可能性が高い。

 なお重複データの候補の下には、[無視]と[削除]の2つのボタンがあり、[削除]ボタンをクリックすれば、重複データが削除できる。この際、オリジナルのデータが削除されてしまうので、データを削除する場合は十分確認の上、実行してほしい。

重複データの有無を確認する(1)
重複データの有無を確認する(1)
[データ]メニューの[データクリーンアップ]−[クリーンアップの候補]を選択する。
重複データの有無を確認する(2)
重複データの有無を確認する(2)
サイドパネルに重複したデータの候補が表示される。[削除]ボタンをクリックすると、検出された全ての重複データが削除される。ここで候補として表示されるのは、全ての項目が一致したものなので、住所データにゆらぎ(「1丁目」が「1-」になっているなど)があると、重複データとは見なされないので注意してほしい。

 また、この[クリーンアップの候補]では、行の全ての項目が一致している必要があるため、住所の表記にゆらぎがあるような場合は検出から漏れてしまうので注意してほしい。

重複データを一括削除する

 重複データが不要な場合、特にデータ量が多いと、COUNTIF関数を使って色付けした重複データを確認しながら削除するのは面倒だ。

 そのような場合は、対象の表内のセルを選択してから[データ]メニューの[データクリーンアップ]−[重複を削除]を選択して、重複データを一括削除すればよい。[重複を削除]を選択すると、[重複を削除]ダイアログが表示され、重複の有無を調べる列(分析する列)が選択できる。また、「データにヘッダー行が含まれている」にチェックを入れると、先頭行が「ヘッダー(見出し)」として認識される。

 重複が見つかると、行番号が小さい方が残り、大きい方が削除される。

 分析対象として複数の列にチェックを入れると、それらの列のデータが全て重複している行だけが削除対象となる。例えば、同姓同名を誤って削除しないようするには、「名前」列と「電話番号」列の両方にチェックを入れて、両方のデータが重複しているものを削除させればよい。

 分析する列として設定していない列に、他の重複するデータ(行)と異なるデータが入力されている場合、削除されてしまうことがあるので注意が必要だ。

 この[重複を削除]では、オリジナルのデータが削除されるので、別のシートにコピーしてから実行し、COUNTIF関数で色付けしたデータと比較して対象となるデータが削除されていることを確認するなどした方がよい。

重複データを一括削除する(1)
重複データを一括削除する(1)
データが失われないように、データを別のシートにコピーしてから作業すること。対象の表内のセルを選択してから[データ]メニューの[データクリーンアップ]−[重複を削除]を選択する。
重複データを一括削除する(2)
重複データを一括削除する(2)
[重複を削除]ダイアログが表示されるので、見出し行がある場合は、「データにヘッダー行が含まれている」にチェックを入れる。「分析する列」欄で、重複を調べたい列にチェックを入れる。「氏名」列だけだと、同姓同名も重複データとして扱われてしまうので、電話番号やメールアドレスなどにもチェックを入れておくとよい。[重複を削除]ボタンをクリックすると、重複するデータが削除される。確認ダイアログなどは表示されないので注意すること。
重複データを一括削除する(3)
重複データを一括削除する(3)
削除された重複データの数などが表示される。
重複データを一括削除する(4)
重複データを一括削除する(4)
重複データが削除されるので、オリジナルのデータと比較して問題がないことを確認するとよい。

Copyright© Digital Advantage Corp. All Rights Reserved.

ページトップに戻る