COCO 2020 Object Detection Task（物体検知タスク、「Instance Segmentation：インスタンスセグメンテーション」とも呼ばれる）
COCO 2020 Keypoint Detection Task（キーポイント検出タスク）
COCO 2020 Panoptic Segmentation Task（パノラマ的セグメンテーションタスク）
COCO 2020 DensePose Task（奥行き姿勢推定タスク）

　COCOではさまざまな種類のセグメンテーションタスクでコンペティションが行われている。上記の2020年には、Instance SegmentationとPanoptic Segmentationの2種類が行われた。2019年には、「Stuff Segmentation」というタスクも行われている。

　なお、スタッフ（Stuff）とは、窓ガラス、壁、床、空など無形の数えられないモノを指し、物体（Object、Thing：人、車、猫など物理的に形がある数えられるモノ）とは区別される。よってStuff Segmentationとは、スタッフに対するセマンティックセグメンテーション（semantic segmentation）のことであり、物体に対するセグメンテーションであるInstance Segmentationとは区別される。ちなみに上記のPanoptic Segmentationは、スタッフと物体の両方に対応するシーンセグメンテーション（scene segmentation）のことである。

配布データの構成

　データセットは、画像データと、それに対する教師ラベルであるアノテーションに分けられ、さらにそれらが訓練（Train）／検証（Val）／テスト（Test）にあらかじめ分割されている。COCOは毎年のようにアップデートされており、具体的には以下のように更新されている。

2014年： 訓練／検証用の画像データとアノテーション、テスト用の画像データ（と画像情報）
2015年： テスト用の画像データ（と画像情報）
2017年： 訓練／検証用の画像データとアノテーション、Stuff Segmentationのための訓練／検証用の画像データとアノテーション、Panoptic Segmentationのための訓練／検証用の画像データとアノテーション、テスト用の画像データ（と画像情報）、オプションとして（半教師あり学習などに使える）教師ラベルなしの画像データ（と画像情報）
2018年： 2017年の全画像に対する完全な「Stuff Segmentationのためのアノテーション」と「Panoptic Segmentationのためのアノテーション」
2019年： 何も変更されていない
2020年： 何も変更されていない

　詳しくは「COCOの公式ダウンロードページ」を参照してほしい。

引用のための情報

　COCOの利用規約によると、COCOの画像を使用する場合は、Flickrの利用規約に従う必要があるとのこと。画像ファイルごとにCreative Commonsのいずれかのライセンスが割り当てられており、その情報がアノテーションに含まれている。

　データセットに関する研究内容を参照する際に使える論文情報を以下にまとめておく。

論文著者： Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick, Piotr Dollár
タイトル： Microsoft COCO: Common Objects in Context
公開日： May 01, 2014
論文： arXiv:1405.0312 [cs.CV]
URL： https://cocodataset.org

利用方法

　実際にCOCOを使うには、TensorFlowやPyTorchといった各ライブラリが提供する機能を利用することをお勧めする。以下に、それぞれのライブラリで「どのようなコードを書くとCOCOが使えるか」の典型的なコードを簡単に示しておく（※コードの詳細は解説しない）。

TensorFlow Datasets

# !pip install tensorflow-datasets # ライブラリ「TensorFlow Datasets」をインストール

import tensorflow_datasets as tfds

coco2017_train = tfds.load(name="coco/2017", split="train")
coco2014_captions_train = tfds.load(name="coco_captions/2014", split="train")

リスト1　TensorFlow DatasetsでCOCOを利用する基本的なコード

　TensorFlow Datasetsで使用できるデータセットは、TensorFlow Datasetsにまとめられており、tensorflow_datasetsモジュール（＝tfds）のload()関数から利用できる。COCOデータセットは、次の2種類が提供されている。

PyTorch

　自動的にダウンロードできない仕様なので、事前に後述の「ダウンロード方法」に示す方法で、利用したい画像データとアノテーションの両方をダウンロードして、任意のフォルダー（例えば画像データを「./images/train2017/」に、アノテーションを「./annotations/」）に配置しておく必要がある。

# !pip install torch torchvision # ライブラリ「PyTorch」をインストール

import torch
import torchvision

coco_det_data = torchvision.datasets.CocoDetection(
    './images/train2017', annFile='./annotations/instances_train2017.json',
    transform=torchvision.transforms.ToTensor())

coco_cap_data = torchvision.datasets.CocoCaptions(
    './images/train2017', annFile='./annotations/captions_train2017.json',
    transform=torchvision.transforms.ToTensor())

data_loader_det = torch.utils.data.DataLoader(coco_det_data, batch_size=4, shuffle=True)
data_loader_cap = torch.utils.data.DataLoader(coco_cap_data, batch_size=4, shuffle=True)