Pythonデータ処理入門:
正規化と標準化はデータセットのスケーリングに大いに役立ちますが、今回は実際にどんなふうにスケーリングが行われるかについてちょっと見てみましょう。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
データのスケーリング、正規化、標準化とはどんな処理なのか、その違いは何かなどを簡単なDataFrameオブジェクトを例に見ていきましょう。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
DataFrameオブジェクトの指定した列のヒストグラムを描画することで、データの分布を視覚的に把握できます。また、年齢層のような考え方を基に、列のデータを一定のグループにまとめる(ビニングする)ことが可能です。その方法を見ていきましょう。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
タイタニックデータセットを使って、欠損値の扱い方、不要な列の削除、カテゴリカルデータのエンコーディングなど、前処理の仕方を見ていきましょう。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
機械学習やディープラーニングにおいて練習材料としてよく使われるタイタニックデータセットを使って、その概要や、性別と生死に関連があるかどうかを調べてみましょう。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
Pandasでデータを処理する際には避けては通れない欠損値。その概要と欠損値かどうかの判定方法、欠損値が行や列に含まれているかを確認する方法、それら数をカウントする方法、欠損値を含む行や列を削除したり置き換えたりする方法を紹介します。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
DataFrameオブジェクトは便利に使えますが、別形式のオブジェクトに変換できると便利なこともあります。今回はその方法を紹介していきます。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
pandasにはDataFrameオブジェクトの行や列をソートする機能や、行と列の順序を入れ替える機能もあります。今回はそれらについて見ていきましょう。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
pandasには、assignメソッドやinsertメソッド、concat関数、dropメソッドなど、DataFrameオブジェクトに対して、行や列を追加したり削除したりする方法が用意されています。それらの基本的な使い方を見ていきましょう。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
pandasのDataFrameオブジェクトの要素を選択するにはたくさんの方法があります。その中からat属性とiat属性、それからブーリアンインデクシングと呼ばれる方法を用いてアクセスする方法を紹介しましょう。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
DataFrameオブジェクトにはたくさんの属性やメソッドがあります。その中から今回はDataFrameオブジェクト自体に関する情報を調べたり、これを他のオブジェクトに変換したりするのに使えるものを紹介します。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
DataFrameオブジェクトを生成する方法とその際に指定可能なオプション、DataFrameから特定の行や列、個別の要素をiloc属性とloc属性で選択する方法を見ていきます。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
pandasが提供するデータを格納/操作するための2種類のオブジェクト、SeriesとDataFrame。そのうちのSeriesオブジェクトを作成しながら、その基本的な特徴を紹介。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
Pythonでデータ処理を始めようという人に向けて、pandasとは何か、インストール、データセットの読み込みと書き込み、簡単なメソッド呼び出しまでを説明します。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
NumPyの多次元配列の要素は全て同じ型である必要があります。が、異なる型のデータを1つの配列に格納したいこともあるはずです。それを可能にする構造化配列を紹介します。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
NumPyには日付を扱うためのnumpy.datetime64クラスとnumpy.timedelta64クラスがあります。これら2つのクラスを使った日付の扱い方を紹介しましょう。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
PythonとNumPyを使って手作業で、回帰分析のモデルを表す回帰式を求め、その決定係数を計算してみましょう。回帰分析が初めての方でもステップバイステップで計算内容が理解できます。同じ計算を手軽に行えるNumPyのpolyfit関数も解説します。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
2種類のデータの関連の度合いを調べるには相関係数やそれを可視化したヒートマップ、散布図を使ってデータセットの調査をさらに進めていきましょう。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
NumPyとMatplotlibを組み合わせ、データセットに含まれているデータがどのような分布になっているかを可視化してみましょう。新たな知見が得られるかもしれません。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
データセットがどのような特徴を持つのか、その基本は最大値/最小値/平均値/中央値/最頻値/標準偏差などの基本統計量を使って調べられます。実際のデータを使って、これを体感してみましょう。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
NumPyが提供する基本統計量を調べるさまざまな関数を使って、サンプルデータにはどんな特徴があるかを調べてみましょう。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
NumPyが提供するndarrayオブジェクトで行列を扱う際には、逆行列や行列式、行列の固有値と固有ベクトルが簡単に求められます。その基本を見ていきましょう。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
内積や行列積、アダマール積などさまざまな種類がある行列の積とそれらを計算する関数、2つのベクトル(行列)が似ているかどうかを判定できるコサイン類似度について触れてみよう。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
NumPyには最大値や最小値を求める関数/メソッドがとてもたくさん用意されています。それらの幾つかと最大値や最小値を求める際に注意が必要なNaN値の扱いについて見ていきます。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
NumPyが提供する多次元配列の要素を選択するために、その整数値のインデックスを配列で与えたり、ブーリアン値の配列を与えたりする方法を紹介します。覚えると便利に使えるはずです。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
ndarrayオブジェクトはさまざまな形で操作できます。今回はその基本となる形状の変更、四則演算、インデックスとスライスによる要素選択と値の変更を見ていきます。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
NumPyが提供する最重要な要素といえば多次元配列を表すndarrayオブジェクト。このオブジェクトを作成して、その基本となる特性を見てみよう。
かわさきしんじ, Deep Insider編集部
Pythonデータ処理入門:
NumPyってどんなもの? どんな機能があるの? ここからデータ処理の第一歩を踏み出そう。Python入門に続く入門シリーズが開始!
かわさきしんじ, Deep Insider編集部