知っていることだけ

勉強していて役に立つ、理解の助けになるようなポイントを書いていきます。

Kaggleで使う構文 欠損データへの処理

使用する構文

データが欠損しているかを調べる

<DataFrame>.isnull()

データが無いマスにTrue,あるマスにFalseが入ったデータフレームが得られます。

pandas並び替え

<DataFrame>.sort_values(by = <列名>)

defaultは昇順。引数に ascending = False と加えれば降順になる

NAを埋める

<DataFrame>.fillna(<埋める値>)

グループ毎に別の値を埋める

<DataFrame>.groupby(<groupする対象列>)[<処理対象の列>].transform(<対象の列に行う処理を記した関数>)

各値が何個あるか

<DataFrameの列>.value_counts()

出力例

RL         2263
RM          460
FV          139
RH           26
C (all)      25
Name: MSZoning, dtype: int64

最頻値の取得

<DataFrame>.mode()[0]