Kaggleで使う構文 欠損データへの処理
使用する構文
データが欠損しているかを調べる
<DataFrame>.isnull()
データが無いマスにTrue,あるマスにFalseが入ったデータフレームが得られます。
pandas並び替え
<DataFrame>.sort_values(by = <列名>)
defaultは昇順。引数に ascending = False と加えれば降順になる
NAを埋める
<DataFrame>.fillna(<埋める値>)
グループ毎に別の値を埋める
<DataFrame>.groupby(<groupする対象列>)[<処理対象の列>].transform(<対象の列に行う処理を記した関数>)
各値が何個あるか
<DataFrameの列>.value_counts()
出力例
RL 2263 RM 460 FV 139 RH 26 C (all) 25 Name: MSZoning, dtype: int64
最頻値の取得
<DataFrame>.mode()[0]