PandasのDataFrame関連でよく使うTips
自分のためのメモ。
主にデータ分析用途でサクッとDataFrameにデータを格納して、いろいろいじりたいときに使う前処理や統計値確認メソッド。
Nullがあるか確認して適当に埋める
# df全体にあるnullの数をカウント df.isnull().sum() # 特定のカラムにあるnullの数をカウント # XXXにカラム名 df.XXX.isnull().sum() # dfの中のNullを0に変換 df = df.replace(np.nan,0) # dfの特定のカラムのNullを0に変換 # XXXにカラム名 df.XXX = df.XXX.replace(np.nan,0)
ざっくり統計値を確認
文字列と数値のカラムが混ざったりしていても、適当に考慮して省いてくれたりするので、手早くざっくり見たいときには重宝します。
df.describe()
特定のカラムの値でGroup Byして、集計関数を適用
こちらも、集計できないカラムは適当に省いてくれます。
sqlでできればそっちの方が早いし、そうすべきなのですが、手元にすでにDataFrameとしてあるデータをちゃちゃっと見たい時ってありますよね。
# 見たいカラムをXXXとして、 # 要素数のカウント df.groupby('XXX').count() # 合計 df.groupby('XXX').sum() # 先ほどのdescribe()もあります df.groupby('XXX').describe() # その他 ここら辺になるとsqlで計算しよろって感じになりますが df.groupby('XXX').first() df.groupby('XXX').last() # 複数のカラムでのGroup Byもできます df.groupby(['XXX','YYY']).count()
jupyterでのDataFrame表示を省略させない
# 表示するカラム数をoptionメソッドで指定します pd.options.display.max_columns = 300