python/pandas 22

stack, unstack 함수 이해하기

import numpy as np import pandas as pd df = pd.DataFrame({ '지역': ['서울', '서울', '서울', '경기', '경기', '부산', '서울', '서울', '부산', '경기', '경기', '경기'], '요일': ['월요일', '화요일', '수요일', '월요일', '화요일', '월요일', '목요일', '금요일', '화요일', '수요일', '목요일', '금요일'], '강수량': [100, 80, 1000, 200, 200, 100, 50, 100, 200, 100, 50, 100], '강수확률': [80, 70, 90, 10, 20, 30, 50, 90, 20, 80, 50, 10] }) df stack & unstack stack: 컬럼 레벨에서 인덱스 레벨..

python/pandas 2021.03.30

pivot, pivot_table 함수의 이해

import numpy as np import pandas as pd df = pd.DataFrame({ '지역': ['서울', '서울', '서울', '경기', '경기', '부산', '서울', '서울', '부산', '경기', '경기', '경기'], '요일': ['월요일', '화요일', '수요일', '월요일', '화요일', '월요일', '목요일', '금요일', '화요일', '수요일', '목요일', '금요일'], '강수량': [100, 80, 1000, 200, 200, 100, 50, 100, 200, 100, 50, 100], '강수확률': [80, 70, 90, 10, 20, 30, 50, 90, 20, 80, 50, 10] }) df pivot dataframe의 형태를 변경 인덱스, 컬럼, 데이터로..

python/pandas 2021.03.30

DataFrame group by 이해 (groupby,gorups,grouping)

import pandas as pd import numpy as np # data 출처: https://www.kaggle.com/hesh97/titanicdataset-traincsv/data df = pd.read_csv('./train.csv') group by 아래의 세 단계를 적용하여 데이터를 그룹화(groupping) 데이터 분할 operation 적용 데이터 병합 GroupBy group 속성 각 그룹과 그룹에 속한 index를 dict 형태로 표현 grouping 함수 그룹 데이터에 적용 가능한 통계 함수(NaN은 제외하여 연산) count - 데이터 개수 sum - 데이터의 합 mean, std, var - 평균, 표준편차, 분산 min, max - 최소, 최대값 성별에 따른 생존율 구해..

python/pandas 2021.03.30

범주형 데이터 전처리 하기(one-hot encoding) (.get_dumies)

import pandas as pd one-hot encoding 범주형 데이터는 분석단계에서 계산이 어렵기 때문에 숫자형으로 변경이 필요함 범주형 데이터의 각 범주(category)를 column레벨로 변경 해당 범주에 해당하면 1, 아니면 0으로 채우는 인코딩 기법 pandas.get_dummies 함수 사용 drop_first: 첫번째 카테고리 값은 사용하지 않음. 변수 한개를 줄이기 위한 목적

python/pandas 2021.03.30

숫자형 데이터와 범주형 데이터 (apply, astype)

import pandas as pd info함수로 각 변수의 데이터 타입 확인 타입 변경은 astype함수를 사용 숫자형(Numerical Type) 데이터 연속성을 띄는 숫자로 이루어진 데이터 예) Age, Fare 등 범주형(Categorical Type) 데이터 연속적이지 않은 값(대부분의 경우 숫자를 제외한 나머지 값)을 갖는 데이터를 의미 예) Name, Sex, Ticket, Cabin, Embarked 어떤 경우, 숫자형 타입이라 할지라도 개념적으로 범주형으로 처리해야할 경우가 있음 예) Pclass 숫자 데이터와 범주형 데이터화 Age 변수 변환하기 변환 로직을 함수로 만든 후, apply함수로 적용

python/pandas 2021.03.30