知っていることだけ

勉強していて役に立つ、理解の助けになるようなポイントを書いていきます。

Kaggleで使う構文 データの変換

importしたもの

import numpy as np 
import pandas as pd

使用する構文

列にアクセス

<DataFrame>["列名"]

又は

<DataFrame>.列名

log変換.

log1p:全ての値に+1してからlogすることで0に対応する

np.log1p(<データ>)

元に戻すときは

np.expm1(<log1pで変換したデータ>)

とすればよい。 expm1はexp(x)-1を返す

trainとtestデータを結合

trainとtestに同じ処理をするために結合することがある。

pd.concat((<DataFrame>,<DataFrame>),sort=False))

sort=Trueにすると列がsortされる

indexのreset

結合後はindexが重複してしまうので新に振りなおす必要がある。

<DataFrame>.reset_index(drop=True)

drop=Trueで元のindexを破棄できる。False(default)だと,元のindexを保持したまま新たな行を作り出す.