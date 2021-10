import numpy as np

import pandas as pd

from sklearn.preprocessing import OrdinalEncoder

from sklearn.metrics import mean_squared_error

from xgboost import XGBRegressor



# 5分割済みの訓練&検証データとテストデータのロード

df_train = pd.read_csv('../input/30days-folds/train_folds.csv')

df_test = pd.read_csv('../input/30-days-of-ml/test.csv')



# 利用する特徴量の選択

useful_features = [c for c in df_train.columns if c not in ("id", "target", "kfold")]



# カテゴリ変数の選択

categorical_cols = [c for c in useful_features if df_train[c].dtype == "object"]



valid_scores = [] # 検証データの評価スコアを保存する変数

test_predictions = [] # テストデータに対する予測結果を保存する変数



# 5分割(fold)したデータセットで交差検証

for fold in range(5):



# フォールドインデックスに一致するものを検証データとして使う

X_valid = df_train[df_train.kfold == fold].reset_index(drop=True)



# フォールドインデックスに一致しないものを訓練データとして使う

X_train = df_train[df_train.kfold != fold].reset_index(drop=True)



# テストデータのコピー

X_test = df_test[useful_features]



# 正解値の教師データ

y_train = X_train.target

y_valid = X_valid.target



# 特徴量の選択

X_train = X_train[useful_features]

X_valid = X_valid[useful_features]

X_test = X_test[useful_features]



# カテゴリー変数の序数エンコーディング

ordinal_encoder = OrdinalEncoder()

X_train[categorical_cols] = ordinal_encoder.fit_transform(X_train[categorical_cols])

X_valid[categorical_cols] = ordinal_encoder.transform(X_valid[categorical_cols])

X_test[categorical_cols] = ordinal_encoder.transform(X_test[categorical_cols])



# XGBoostのモデルを訓練(fit)する

model = XGBRegressor(

#n_jobs=-1, # CPUを使う場合

tree_method='gpu_hist', gpu_id=-1, predictor='gpu_predictor', # GPUを使う場合

random_state=fold)

model.fit(X_train, y_train)



# 検証データをモデルに入力して予測する

preds_valid = model.predict(X_valid)

# 検証データの評価スコアを取得し、ループ外の変数に保存して、スコアを出力

score_valid = mean_squared_error(y_valid, preds_valid, squared=False)

valid_scores.append(score_valid)

print(fold, score_valid)



# 同様に、テストデータをモデルに入力して予測する

preds_test = model.predict(X_test)

# 予測結果をループ外の変数に保存

test_predictions.append(preds_test)



# 出力例:

# 0 0.7245705518241878

# 1 0.7242510349403168

# 2 0.7263048437982703

# 3 0.7268360366892102

# 4 0.7257268137232141



# 5回分の検証データによる評価スコアを平均する

score_validation = np.mean(valid_scores)

print(score_validation)

# 出力例: 0.7255378561950397



# 5回分のテストデータに対する予測結果を平均する

preds_submission = np.mean(np.column_stack(test_predictions), axis=1)

print(preds_submission)

# 出力例: [8.015874 8.346141 8.373257 ... 8.317327 8.129509 8.017377]