import pandas as pd
import numpy as np
# data 출처: https://www.kaggle.com/hesh97/titanicdataset-traincsv/data
df = pd.read_csv('./train.csv')
group by
- 아래의 세 단계를 적용하여 데이터를 그룹화(groupping)
- 데이터 분할
- operation 적용
- 데이터 병합
GroupBy group 속성
- 각 그룹과 그룹에 속한 index를 dict 형태로 표현
grouping 함수
- 그룹 데이터에 적용 가능한 통계 함수(NaN은 제외하여 연산)
- count - 데이터 개수
- sum - 데이터의 합
- mean, std, var - 평균, 표준편차, 분산
- min, max - 최소, 최대값
- 성별에 따른 생존율 구해보기
복수 colums로 groupping 하기
- groupby에 column 리스트를 전달
- 통계함수를 적용한 결과는 mulitindex를 갖는 dataframe
- 클래스와 성별에 따른 생존률 구해보기
index를 이용한 group by
- index가 있는 경우, groupby 함수에 level 사용 가능
- level은 index의 depth를 의미하며, 가장 왼쪽부터 0부터 증가
- set_index 함수
- column 데이터를 index 레벨로 변경
- reset_index 함수
- 인덱스 초기화
'python > pandas' 카테고리의 다른 글
pivot, pivot_table 함수의 이해 (0) | 2021.03.30 |
---|---|
transform 함수 (0) | 2021.03.30 |
범주형 데이터 전처리 하기(one-hot encoding) (.get_dumies) (0) | 2021.03.30 |
숫자형 데이터와 범주형 데이터 (apply, astype) (0) | 2021.03.30 |
DataFrame NaN 데이터 처리 (0) | 2021.03.30 |