[Python] pandas_profiling : EDA를 더 쉽게 해보자!

https://wikidocs.net/book/2155를 통해 NLP 공부를 하다가 발견하게 된 pandas_profiling 함수. 보자마자 이런 함수가 있다는걸 진작에 알았더라면 싶었다.
(하지만 설치하는 과정은..... 음..... 🙄)

설치

설치가 프롬프트 창에서 pip로는 불러와지지 않았다. 그래서 해결한 방법!

import sys
!{sys.executable} -m pip install pandas-profiling

결과

(데이터는 한창 준비하고 있는 Kaggle의 Real or Not? NLP with Disaster Tweet 대회 데이터를 이용했다.)

dataTrain = pd.read_csv('train.csv')
pandas_profiling.ProfileReport(dataTrain)

첫 화면 Overview에서는 변수 개수, 데이터 개수 및 NA 비율, 변수 타입 개수 등을 볼 수 있다.

두번째 화면 Variables에서는 각 변수별로 개수 분포 등이 설명되어 있다.

세번째 화면 Correlations는 수치형 변수에 대한 상관분석 (여기에서는 id는 단순한 index이므로 상관관계가 거의 없다.)

네번째 Missing values에서는 NA가 있는 변수에 대해 파악할 수 있다.

마지막 Sample에서는 각 데이터 미리보기 (head / tail 느낌)

데이터 EDA가 전반적으로 되어 있어 데이터 전처리를 하기 전에 꼭 해보면 좋을 것 같다.

[Tableau] Rounded bar chart 만들기 (0)	2020.03.20
[Tableau] 달력 차트 만들기 (0)	2020.03.20
[Tableau] 날짜 기준 매개변수 생성하기 (0)	2020.03.20
[R] 색상 이름 (0)	2020.02.18
[Python] kaggle bike 데이터를 이용한 pandas 전처리 / seaborn 시각화 (0)	2019.06.22

heehehe.log