python/pandas

범주형 데이터 전처리 하기(one-hot encoding) (.get_dumies)

jwjwvison 2021. 3. 30. 22:11
import pandas as pd

   one-hot encoding

  • 범주형 데이터는 분석단계에서 계산이 어렵기 때문에 숫자형으로 변경이 필요함
  • 범주형 데이터의 각 범주(category)를 column레벨로 변경
  • 해당 범주에 해당하면 1, 아니면 0으로 채우는 인코딩 기법
  • pandas.get_dummies 함수 사용
    • drop_first: 첫번째 카테고리 값은 사용하지 않음. 변수 한개를 줄이기 위한 목적