Wine Dataset：ワイン（アルコール度数／色の濃さなどの13項目）の表形式データセット：AI・機械学習のデータセット辞典

データセット「Wine」について説明。178件のワインの「表形式データ（アルコール度数／色の濃さなどの13項目）」＋「ラベル（3種類のワインの分類）」が無料でダウンロードでき、多クラス分類問題などのディープラーニングや統計学／データサイエンスに利用できる。scikit-learnにおける利用コードも紹介。

» 2022年08月25日 05時00分公開

[一色政彦，デジタルアドバンテージ]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

連載目次

データセット解説

　Wineデータセット（ワインの化学分析データ）は、「アルコール度数／色の濃さ」などの13個の特徴量と、3種類のワインのいずれかを示すラベルで構成される表形式データセット（＝構造化データセット）である（図1）。

図1　Wineデータセットの内容例
※データセットの配布元：「https://archive.ics.uci.edu/ml/datasets/wine」。

　Wineデータセットは、主に多クラス分類（具体的には「ワインの種類の予測」）を目的とした統計学／機械学習／ディープラーニングなどの練習で活用できる。

　図1を見ると分かるように、説明変数となる13個の特徴量は以下の通り。

alcohol： アルコール度数
malic_acid： リンゴ酸
ash： 灰分（かいぶん）
alcalinity_of_ash： 灰分のアルカリ度
magnesium： マグネシウム
total_phenols： 全フェノール含量
flavanoids： フラボノイド
nonflavanoid_phenols： 非フラボノイドフェノール
proanthocyanins： プロアントシアニン
color_intensity： 色の濃さ
hue： 色相
od280/od315_of_diluted_wines： 希釈ワイン溶液のOD280／OD315（＝280nmと315nmの吸光度の比）
proline： プロリン

　これらの特徴量は、イタリアの同じ地域で栽培された、3種類の異なる品種に由来するワインの化学分析の結果である。

　また、「ワインの種類」を示す、目的変数（target variable）となるラベル（＝正解を示す教師データ）には、

クラス1： 値は「0」（59件）
クラス2： 値は「1」（71件）
クラス3： 値は「2」（48件）

の3種類がある。上記の（○件）は各クラスのデータ件数である。このように、各クラスの件数は同数ではないことに注意してほしい。

　各件数を合計すると、全データ数は178件となる。

引用のための情報

　このデータセットは、基本的に自由に使用できる（※ライセンスは指定されていない）。

　データセットを引用する際に使える情報を以下にまとめておく。

元となる書籍の著者： M. Forina, R. Leardi, C. Armanino and S. Lanteri
元となる書籍のタイトル： PARVUS: An extendable package of programs for data exploration, classification and correlation
元となる書籍の公開年： 1988
データセットの配布元： https://archive.ics.uci.edu/ml/datasets/wine
元のデータセット（wine.data）ファイル