ZOZOテクノロジーズは、大規模データセット「Shift15M」と実装基盤をオープンソースとして公開した。ファッションアプリ「IQON」に投稿されたコーディネートなどのデータと、データ分布のシフトが生じる条件の下で検証するためのコードを用意した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
ZOZOテクノロジーズは2021年9月2日、同社の研究開発組織「ZOZO研究所」の研究員が使用している大規模データセット「Shift15M」と実装基盤を公開したと発表した。
ZOZO研究所はファッションの流行が変化しても、継続的に認識精度を高く保てるAI(人工知能)技術を研究しているが、「データ分布のシフトの検証は、AI技術の実用性に関わる重要なテーマであるものの、検証に用いる実用的なデータセットが不足しており、こうした分野の研究の進展が制限されてきた」という。
今回のデータセットと実装基盤を公開は、こうした分布シフトの研究の発展を支えることが目的だ。
なお、データ分布のシフトとは、ファッションのように流行の変化による影響を受けて、データ量が変化する数理的現象。流行や時間などの変化に伴って入力データの分布が変化することで生じる。分布シフトによって、AIの認識精度が低下することが知られている。
Shift15Mは、スマートフォン向けファッションアプリ「IQON」に投稿されたコーディネートを基に構成した大規模データセット。
2010〜2020年に投稿された約255万件のコーディネートに加え、これらのコーディネートを構成する約1500万件のアイテムに関する特徴量や、コーディネート投稿への「いいね」の数などの関連データを含む。
実装基盤には、データ分布のシフトが生じる条件の下で「回帰問題」「分類問題」「集合マッチング」などさまざまなタスクを検証するためのコードが格納されている。「コーディネートデータの年ごとに異なる傾向を認識し、その変化によって生じるデータ分布のシフトを再現する」といった使い方ができ、ZOZO研究所は「年々変化するファッションの流行を捉えられる」としている。
データセットと実装基盤は、GitHubでダウンロードできる。
Copyright © ITmedia, Inc. All Rights Reserved.