본문 바로가기

[Tableau] 날짜 기준 매개변수 생성하기 Tableau에서 매개변수란, 계산이나 필터 또는 참조선 등 다른 계산을 할 때 상수값으로 대체할 수 있는 변수이다. 예를 들어, 어떤 날짜를 기준으로 해당 날짜 이후의 데이터만 확인하고 싶을 때 그 해당 날짜를 받아주는 변수가 매개변수이다. 이번 포스트에서는 이러한 매개변수 중 위의 예시처럼 날짜를 기준으로 매개변수를 생성하는 방법을 알아보자. 우선 왼쪽의 차원 메뉴에서 ▼를 눌러 [매개 변수 만들기...]를 클릭한다. 그 다음 이름을 정하고 데이터 유형에서 날짜를 선택한 뒤, 허용 가능한 값을 선택한다. 여기에서는 날짜에 대한 범위를 다른 변수로부터 지정해줄 것이므로 범위를 체크했다. 해당 범위를 직접 지정해줄 수도 있으며, 데이터 변수에서 불러올 수도 있다. 변수에서 불러올 경우 [필드에서 설정 >..
[R] 색상 이름 https://www.r-graph-gallery.com/42-colors-names.html
[Python] kmeans clustering 인턴하는 중 새로운 아이디어를 제안해주셔서 급하게 하게 된 군집분석. 까먹기 전에 기록해두기 위해 적어둔다. 우선 필요한 패키지를 불러온다. # 항상 불러와주는 기본 패키지들 import pandas as pd import numpy as np # plotting 용 패키지들 import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline # KMeans 알고리즘 from sklearn.cluster import KMeans 데이터를 정리하고 (보안상 생략) 모델링에 들어간다. inertia = [] for i in range(1,11): kmeans = KMeans(n_clusters=i) kmeans.fit(Xs) inertia.app..
[R] Clustering Algorithms (kmeans, PAM, CLARA) 1) kmeans 가장 통상적으로 알려진 클러스터링 기법이다. k개 클러스터 중심(centeroid)를 데이터 내에서 랜덤하게 잡은 뒤, 거리 기반으로 분류를 진행한다. 그리고 각 클러스터에 속한 데이터 평균을 클러스터 중심(centeroid)로 재설정한다. 이러한 알고리즘을 기반으로 진행되는 것이 kmeans 알고리즘이다. 하지만 데이터 '평균'을 이용하므로 이상치에 민감하다는 단점이 있다. 코드) https://heehehe-ds.tistory.com/17 2) PAM(Partitioning Around Medoids) kmeans의 단점을 보완한 기법으로, 데이터 평균 대신 medoid를 이용한다. medoid란 클러스터 내에서 가장 중심에 위치한 데이터, 즉 중앙값으로 보면 된다. 이를 통해 클러..
[Python] pandas 열에 na 들어갈 때 float type 처리 방법 데이터 전처리를 하다 보면 어떤 열에 na 값을 넣어야 할 때 np.nan으로 넣으면 해당 열이 float 형으로 변환될 때가 있다. 이 때 해당 열이 카테고리형 변수라서 float 형으로 보기 원하지 않는다면 다음과 같이 처리하면 된다. data[col] = data[col].astype('Int64')
[NLP/Python] 정규표현식 (re) . 임의의 문자 1개 (\n 제외) a? a가 최소 0개 최대 1개 존재 a* a가 최소 0개 이상 존재 a+ a가 최소 1개 이상 존재 ^a a로 문자열 시작 a$ a로 문자열 종료 ex1) 단어 사이 띄어쓰기 상관 없이 찾아서 대체하기 import re sentence = re.sub('불편.?사항', '불편', sentence) ex2) 여러 단어 한꺼번에 find할 때 import re for word in re.finditer('없음|없다|없고', sentence): print(word.start(), word.end())
[Python] pandas_profiling : EDA를 더 쉽게 해보자! https://wikidocs.net/book/2155를 통해 NLP 공부를 하다가 발견하게 된 pandas_profiling 함수. 보자마자 이런 함수가 있다는걸 진작에 알았더라면 싶었다. (하지만 설치하는 과정은..... 음..... 🙄) 설치 설치가 프롬프트 창에서 pip로는 불러와지지 않았다. 그래서 해결한 방법! import sys !{sys.executable} -m pip install pandas-profiling 결과 (데이터는 한창 준비하고 있는 Kaggle의 Real or Not? NLP with Disaster Tweet 대회 데이터를 이용했다.) dataTrain = pd.read_csv('train.csv') pandas_profiling.ProfileReport(dataTrai..
[Python] kaggle bike 데이터를 이용한 pandas 전처리 / seaborn 시각화 trn : train data / tes : test data >> datetime 전처리 # datetime 열에서 시간, 요일, 월, 연도 열 추출 trn['hour'] = [t.hour for t in pd.DatetimeIndex(trn.datetime)] trn['month'] = [t.month for t in pd.DatetimeIndex(trn.datetime)] trn['year'] = [t.year for t in pd.DatetimeIndex(trn.datetime)] tes['hour'] = [t.hour for t in pd.DatetimeIndex(tes.datetime)] tes['month'] = [t.month for t in pd.DatetimeIndex(tes.datet..