python/pandas 22

DataFrame 원하는 column,row 만 선택하기

column 선택하기 기본적으로 [ ]는 column을 추출 컬럼 인덱스일 경우 인덱스의 리스트는 사용 가능 리스트를 전달할 경우 결과는 Dataframe 하나의 컬럼명을 전달할 경우 결과는 Series import pandas as pd 하나의 컬럼 선택하기 복수의 컬럼 선택하기 dataframe slicing dataframe의 경우 기본적으로 [ ] 연산자가 column선택에 사용 하지만, slicing은 row레벨로 지원 row 선택하기 Series의 경우 [ ]로 row선택이 가능하나, DataFrame의 경우는 기본적으로 column을 선택하도록 설계 .loc, .iloc 함수로 row 선택 가능 loc-인덱스 자체를 사용 iloc- 0based index로 사용 이 두 함수는 ,를 사용하여 ..

python/pandas 2021.03.30

샘플 csv 데이터로 DataFrame 데이터 생성하기

csv 데이터로부터 Dataframe 생성 데이터 분석을 위해, dataframe을 생성하는 가장 일반적인 방법 데이터 소스로부터 추출된 csv(comma separated values) 파일로부터 생성 pandas.read_csv 함수 사용 import pandas as pd read_csv 함수 파라미터 sep- 각 데이터 값을 구별하기 위한 구분자(separator) 설정 header - header를 무시할 경우, None 설정 index_col - index로 사용할 column 설정 usecols - 실제로 dataframe에 로딩할 columns만 설정

python/pandas 2021.03.30

Dataframe data 살펴보기

DataFrame Series가 1차원이라면 DataFrame은 2차원으로 확대된 버전 Excel spreadsheet이라고 생각하면 이해하기 쉬움 2차원이기 때문에 인덱스가 row, column로 구성됨 row 는 각 개별 데이터를, column은 개별 속성을 의미 Data Analysis, Machine Learning에서 data변형을 위해 가장 많이 사용 import panda as pd head, tail 함수 dataframe 데이터 파악하기 shape 속성 (row, column) describe 함수 - 숫자형 데이터의 통계치 계산 info 함수 - 데이터 타입, 각 아이템의 개수 등 출력

python/pandas 2021.03.29