티스토리

CS STUDY

검색하기

DataFrame group by 이해 (groupby,gorups,grouping)

python/pandas

DataFrame group by 이해 (groupby,gorups,grouping)

jwjwvison 2021. 3. 30. 23:19

import pandas as pd
import numpy as np

# data 출처: https://www.kaggle.com/hesh97/titanicdataset-traincsv/data
df = pd.read_csv('./train.csv')

group by

아래의 세 단계를 적용하여 데이터를 그룹화(groupping)
- 데이터 분할
- operation 적용
- 데이터 병합

GroupBy group 속성

각 그룹과 그룹에 속한 index를 dict 형태로 표현

grouping 함수

그룹 데이터에 적용 가능한 통계 함수(NaN은 제외하여 연산)
count - 데이터 개수
sum - 데이터의 합
mean, std, var - 평균, 표준편차, 분산
min, max - 최소, 최대값

성별에 따른 생존율 구해보기

복수 colums로 groupping 하기

groupby에 column 리스트를 전달
통계함수를 적용한 결과는 mulitindex를 갖는 dataframe

클래스와 성별에 따른 생존률 구해보기

index를 이용한 group by

index가 있는 경우, groupby 함수에 level 사용 가능
- level은 index의 depth를 의미하며, 가장 왼쪽부터 0부터 증가

set_index 함수
- column 데이터를 index 레벨로 변경
reset_index 함수
- 인덱스 초기화

저작자표시