PandasのDataFrame関連でよく使うTips

自分のためのメモ。
主にデータ分析用途でサクッとDataFrameにデータを格納して、いろいろいじりたいときに使う前処理や統計値確認メソッド。

Nullがあるか確認して適当に埋める

# df全体にあるnullの数をカウント
df.isnull().sum()

# 特定のカラムにあるnullの数をカウント
# XXXにカラム名
df.XXX.isnull().sum()


# dfの中のNullを0に変換
df = df.replace(np.nan,0)

# dfの特定のカラムのNullを0に変換
# XXXにカラム名
df.XXX = df.XXX.replace(np.nan,0)

 

ざっくり統計値を確認

文字列と数値のカラムが混ざったりしていても、適当に考慮して省いてくれたりするので、手早くざっくり見たいときには重宝します。

df.describe()

 

特定のカラムの値でGroup Byして、集計関数を適用

こちらも、集計できないカラムは適当に省いてくれます。
sqlでできればそっちの方が早いし、そうすべきなのですが、手元にすでにDataFrameとしてあるデータをちゃちゃっと見たい時ってありますよね。

# 見たいカラムをXXXとして、

# 要素数のカウント
df.groupby('XXX').count()

# 合計
df.groupby('XXX').sum()

# 先ほどのdescribe()もあります
df.groupby('XXX').describe()

# その他 ここら辺になるとsqlで計算しよろって感じになりますが
df.groupby('XXX').first()
df.groupby('XXX').last()

# 複数のカラムでのGroup Byもできます
df.groupby(['XXX','YYY']).count()

 

jupyterでのDataFrame表示を省略させない

# 表示するカラム数をoptionメソッドで指定します
pd.options.display.max_columns = 300