Wine Dataset:ワイン(アルコール度数/色の濃さなどの13項目)の表形式データセットAI・機械学習のデータセット辞典

データセット「Wine」について説明。178件のワインの「表形式データ(アルコール度数/色の濃さなどの13項目)」+「ラベル(3種類のワインの分類)」が無料でダウンロードでき、多クラス分類問題などのディープラーニングや統計学/データサイエンスに利用できる。scikit-learnにおける利用コードも紹介。

» 2022年08月25日 05時00分 公開
[一色政彦デジタルアドバンテージ]
「AI・機械学習のデータセット辞典」のインデックス

連載目次

データセット解説

 Wineデータセットワインの化学分析データ)は、「アルコール度数/色の濃さ」などの13個の特徴量と、3種類のワインのいずれかを示すラベルで構成される表形式データセット(=構造化データセット)である(図1)。

図1 Wineデータセットの内容例 図1 Wineデータセットの内容例
データセットの配布元: 「https://archive.ics.uci.edu/ml/datasets/wine」。

 Wineデータセットは、主に多クラス分類(具体的には「ワインの種類の予測」)を目的とした統計学/機械学習/ディープラーニングなどの練習で活用できる。

 図1を見ると分かるように、説明変数となる13個の特徴量は以下の通り。

  • alcohol: アルコール度数
  • malic_acid: リンゴ酸
  • ash: 灰分(かいぶん)
  • alcalinity_of_ash: 灰分のアルカリ度
  • magnesium: マグネシウム
  • total_phenols: 全フェノール含量
  • flavanoids: フラボノイド
  • nonflavanoid_phenols: 非フラボノイドフェノール
  • proanthocyanins: プロアントシアニン
  • color_intensity: 色の濃さ
  • hue: 色相
  • od280/od315_of_diluted_wines: 希釈ワイン溶液のOD280/OD315(=280nmと315nmの吸光度の比)
  • proline: プロリン

 これらの特徴量は、イタリアの同じ地域で栽培された、3種類の異なる品種に由来するワインの化学分析の結果である。

 また、「ワインの種類」を示す、目的変数(target variable)となるラベル(=正解を示す教師データ)には、

  • クラス1: 値は「0」(59件)
  • クラス2: 値は「1」(71件)
  • クラス3: 値は「2」(48件)

の3種類がある。上記の(○件)は各クラスのデータ件数である。このように、各クラスの件数は同数ではないことに注意してほしい。

 各件数を合計すると、全データ数は178件となる。

引用のための情報

 このデータセットは、基本的に自由に使用できる(ライセンスは指定されていない)。

 データセットを引用する際に使える情報を以下にまとめておく。

利用方法

 実際にWineデータセットを使うには、ライブラリscikit-learnが提供する機能を利用することをお勧めする。ムダな作業を省いて、効率的に使えるためだ。

 なお、TensorFlow/Keras/PyTorchにはWineデータセットは用意されていなかった。ただし、TensorFlowには代わりに「wine_qualityデータセット」(データセットの配布元)が用意されているが、本稿の内容とは異なるので説明を割愛する。

 以下に、scikit-learnで「どのようなコードを書くとWineデータセットが使えるか」の典型的なコードを簡単に示しておく。

scikit-learn

# !pip install scikit-learn  # ライブラリ「scikit-learn」をインストール

from sklearn.datasets import load_wine

wine = load_wine()

リスト1 scikit-learnでWineデータセットを利用する基本的なコード

 sklearn.datasets.load_wine()関数を呼び出せばよい。戻り値として(sklearn.utils.Bunch型の)辞書オブジェクトを返す。その配下の、

  • dataにデータが
  • targetにラベル(目的変数の値)が
  • feature_namesに特徴量名が
  • target_namesに分類クラス名が
  • 関数の引数にas_frame=Trueを含めた場合は、frameに全11列のpandasデータフレーム(target列は最後の列)が

格納されている。

「AI・機械学習のデータセット辞典」のインデックス

AI・機械学習のデータセット辞典

Copyright© Digital Advantage Corp. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。