Kaggleで使う構文 データの変換
importしたもの
import numpy as np import pandas as pd
使用する構文
列にアクセス
<DataFrame>["列名"]
又は
<DataFrame>.列名
log変換.
log1p:全ての値に+1してからlogすることで0に対応する
np.log1p(<データ>)
元に戻すときは
np.expm1(<log1pで変換したデータ>)
とすればよい。 expm1はexp(x)-1を返す
trainとtestデータを結合
trainとtestに同じ処理をするために結合することがある。
pd.concat((<DataFrame>,<DataFrame>),sort=False))
sort=Trueにすると列がsortされる
indexのreset
結合後はindexが重複してしまうので新に振りなおす必要がある。
<DataFrame>.reset_index(drop=True)
drop=Trueで元のindexを破棄できる。False(default)だと,元のindexを保持したまま新たな行を作り出す.