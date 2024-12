from sklearn.datasets import make_regression

from sklearn.preprocessing import StandardScaler

from sklearn.model_selection import train_test_split



# 独自のデータセットを作成

data, target = make_regression(

n_samples=500, # データ数。この例では500個を生成

n_features=6, # 特徴量の数。この例では6つ作成

n_informative=4, # ターゲット値に影響を与える特徴量の数

noise=1.0, # ターゲット値に追加するノイズの標準偏差

effective_rank=1, # 値が小さいほど特徴量間の多重共線性が強くなる

random_state=0 # 乱数のシード値。再現性のために指定

)



# 特徴量とターゲットの取得

X = data

y = target



# データの標準化

scaler = StandardScaler()

X_scaled = scaler.fit_transform(X)



# 訓練セットとテストセットに分割

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.1, random_state=0)



print(f'訓練セットのサイズ: {X_train.shape}') # 訓練セットのサイズ: (450, 6)

print(f'テストセットのサイズ: {X_test.shape}') # テストセットのサイズ: (50, 6)