# [Level 0]ベースモデル3: XGBoost(標準化のバージョン)

import numpy as np

import pandas as pd

from sklearn.preprocessing import OrdinalEncoder, StandardScaler

from sklearn.metrics import mean_squared_error

from xgboost import XGBRegressor



# 事前にハイパーパラメーターのチューニングをしておく(参考:前回のリスト3)

# params = study.best_params

params = {

'learning_rate': 0.02164416532115273,

'reg_lambda': 1.5360131023800562e-08,

'reg_alpha': 16.67878863017435,

'subsample': 0.7586782390870352,

'colsample_bytree': 0.13555581566462735,

'max_depth': 4,

'min_child_weight': 16

}



# 「5分割済みの訓練&検証データ」と「テストデータ」のロード

df_train = pd.read_csv('../input/30days-folds/train_folds.csv')

df_test = pd.read_csv('../input/30-days-of-ml/test.csv')

# サンプルのSubmission用ファイルもロード

df_sample_submission = pd.read_csv('../input/30-days-of-ml/sample_submission.csv')



# 利用する特徴量の選択

useful_features = [c for c in df_train.columns if c not in ('id', 'target', 'kfold')]



# カテゴリ変数と数値変数の選択

categorical_cols = [c for c in useful_features if df_train[c].dtype == 'object']

numerical_cols = [c for c in useful_features if df_train[c].dtype in ['int64', 'float64']]



valid_scores = [] # 「検証データに対する評価スコア」を保存する変数

valid_predictions = {} # 「検証データに対する予測結果」を保存する変数

test_predictions = [] # 「テストデータに対する予測結果」を保存する変数



for fold in range(5):

X_train = df_train[df_train.kfold != fold].reset_index(drop=True)

X_valid = df_train[df_train.kfold == fold].reset_index(drop=True)

X_test = df_test.copy()



# 検証データのIDを保存しておく

valid_ids = X_valid.id.values.tolist()



y_train = X_train.target

y_valid = X_valid.target



X_train = X_train[useful_features]

X_valid = X_valid[useful_features]

X_test = X_test[useful_features]



ordinal_encoder = OrdinalEncoder()

X_train[categorical_cols] = ordinal_encoder.fit_transform(X_train[categorical_cols])

X_valid[categorical_cols] = ordinal_encoder.transform(X_valid[categorical_cols])

X_test[categorical_cols] = ordinal_encoder.transform(X_test[categorical_cols])



scaler = StandardScaler()

X_train[numerical_cols] = scaler.fit_transform(X_train[numerical_cols])

X_valid[numerical_cols] = scaler.transform(X_valid[numerical_cols])

X_test[numerical_cols] = scaler.transform(X_test[numerical_cols])



# XGBoost(標準化のバージョン)モデルの訓練(fit)

model = XGBRegressor(

#n_jobs=-1, # CPUを使う場合

tree_method='gpu_hist', gpu_id=-1, predictor='gpu_predictor', # GPUを使う場合

random_state=24,

n_estimators=10000,

**params)

model.fit(

X_train, y_train,

early_stopping_rounds=300, eval_set=[(X_valid, y_valid)],

verbose=1000)



# 検証データをモデルに入力して予測する

preds_valid = model.predict(X_valid)

# 検証データのIDと、それに対する予測値をセットで、ループ外の変数に保存する

valid_predictions.update(dict(zip(valid_ids, preds_valid)))

# 「検証データに対する評価スコア」を取得してループ外の変数に保存し、スコアを出力

score_valid = mean_squared_error(y_valid, preds_valid, squared=False)

valid_scores.append(score_valid)

print(fold, score_valid)

# 出力例: 0 0.7169737498911609



# 同様に、テストデータをモデルに入力して予測する

preds_test = model.predict(X_test)

# 予測結果をループ外の変数に保存

test_predictions.append(preds_test)



# 5回分の「検証データによる評価スコア」を平均する

score_validation = np.mean(valid_scores)

print('score_validation:', score_validation)

# 出力例: score_validation: 0.7255378561950397



# 「検証データに対する予測結果」をCSVファイルに保存

valid_predictions = pd.DataFrame.from_dict(valid_predictions, orient='index').reset_index()

valid_predictions.columns = ['id', 'pred_3'] # 列名を[id]と[pred_3]にする

valid_predictions.to_csv('valid_preds3.csv', index=False)



# 5回分の「テストデータに対する予測結果」を平均し、それをCSVファイルに保存

X_sample_submission = df_sample_submission.copy()

X_sample_submission.target = np.mean(np.column_stack(test_predictions), axis=1)

X_sample_submission.columns = ['id', 'pred_3'] # 列名を[id]と[pred_3]にする

X_sample_submission.to_csv('test_preds3.csv', index=False)