5장 데이터의 정리
데이터를 정리하는 다양한 기법을 알아봅니다.
import janitor as jn
Xbad = pd.DataFrame(
{
"A": [1, None, 3],
" sales numbers ": [20.0, 30.0, None],
}
)
jn.clean_names(Xbad)
def clean_col(name):
return (
name.strip().lower().replace(" ", "_")
)
Xbad.rename(columns=clean_col)
jn.coalesce(
Xbad,
columns=["A", " sales numbers "],
new_column_name="val",
)
Xbad.fillna(10)
jn.fill_empty(
Xbad,
columns=["A", " sales numbers "],
value=10,
)
import pandas as pd
url = "https://biostat.app.vumc.org/wiki/pub/Main/DataSets/titanic3.xls"
df = pd.read_excel(url)
orig_df = df
df.isna().any().any()