본문 바로가기

DATA SCIENCE/VISUALIZATION

[Python] pandas_profiling : EDA를 더 쉽게 해보자!

https://wikidocs.net/book/2155를 통해 NLP 공부를 하다가 발견하게 된 pandas_profiling 함수. 보자마자 이런 함수가 있다는걸 진작에 알았더라면 싶었다.
(하지만 설치하는 과정은..... 음..... 🙄)

 

설치

설치가 프롬프트 창에서 pip로는 불러와지지 않았다. 그래서 해결한 방법!

import sys
!{sys.executable} -m pip install pandas-profiling

 

결과

(데이터는 한창 준비하고 있는 Kaggle의 Real or Not? NLP with Disaster Tweet 대회 데이터를 이용했다.)

dataTrain = pd.read_csv('train.csv')
pandas_profiling.ProfileReport(dataTrain)

첫 화면 Overview에서는 변수 개수, 데이터 개수 및 NA 비율, 변수 타입 개수 등을 볼 수 있다.

두번째 화면 Variables에서는 각 변수별로 개수 분포 등이 설명되어 있다.

세번째 화면 Correlations는 수치형 변수에 대한 상관분석 (여기에서는 id는 단순한 index이므로 상관관계가 거의 없다.)

네번째 Missing values에서는 NA가 있는 변수에 대해 파악할 수 있다.

마지막 Sample에서는 각 데이터 미리보기 (head / tail 느낌)

 

데이터 EDA가 전반적으로 되어 있어 데이터 전처리를 하기 전에 꼭 해보면 좋을 것 같다.

반응형