'DATA SCIENCE' 카테고리의 글 목록 (10 Page)

본문 바로가기

[Tableau] 계기판(gague chart) 만들기 이번에는 자동차 앞 미터기나 냉장고 옆 스티커에서 흔히 봤을 계기판을 만들어보고자 한다. (계기판이라고 부르는게 맞는지 모르겠지만... 일단 그렇게 명명하도록 하겠다!) 우선 나타낼 변수는 BMI로, BMI 지수마다 범주화를 한 필드를 생성해주었다. 그리고 해당 계기판 그림은 파워포인트를 통해 직접 만들어주었다. (능력이 된다면 포토샵이나 일러스트를 쓰면 더욱 좋을듯하다.) 그리고 계기판을 배경으로 표시를 할 막대를 나타내기 위한 X축과 Y축 변수를 생성해준다. 사실 cos, sin 함수를 쓰는 것이 원칙이지만, 보다 쉽게 이해하기 위해 상수값을 할당해주었다. 이제 상단의 [맵 > 배경 이미지 > 해당 데이터]를 클릭해준 뒤, [이미지 추가]를 누른다. 생성했던 계기판 그림을 [파일 또는 URL]에 넣어..

[Tableau] Rounded bar chart 만들기 이번에는 막대 그래프 끝이 동글동글한 rounded bar chart를 만들어보고자 한다. 우선 열에 막대로 표현하고 싶은 변수를 넣고 옆에 더블클릭하여 AVG(0)을 생성해준다. 그리고 집계(AVG(0))을 시트의 막대로 표현하고 싶은 변수 쪽으로 드래그해서 놓으면 결합된 축이 만들어진다. 결합된 축이 만들어진 결과는 다음과 같다. 이제 마크를 [자동]에서 [라인]으로 변경하고 행에 있는 [측정값 이름]을 좌측 마크의 라인 아래의 [경로]에 넣어준다. 행에 표현하고자 하는 변수를 넣어준 뒤 측정값을 크기에 추가해준다. 그러면 우측으로 갈수록 커지는 야구방망이같이 생긴 rounded bar chart 그래프가 생성된다. 여기에서 색상을 측정값으로 하거나 측정값 크기 순서대로 정렬하는 등의 과정을 거치면 ..

[Tableau] 달력 차트 만들기 최근 인기를 끌고 있는 앱 중 매일 자신의 감정으로 일기를 쓰는 앱이 있다. 이번에는 그 앱처럼 달력에 모양을 표시하는 달력 차트를 만들어보고자 한다. 우선 날짜와 관련된 변수를 열에는 년월과 요일로, 행에는 주 단위로 놓는다. TIP! 변수 드래그한 동시에 범위 설정하는 방법 변수를 클릭해서 드래그하면 자동으로 범위가 생성되는 경우가 있다. 이 때 변수를 드래그할 때 마우스 우클릭을 하고 드래그하면 필드 놓기 창이 뜨면서 어떤 단위로 변수를 생성할지 설정할 수 있다. 굳이 좌클릭으로 드래그 한 뒤 다시 클릭해야 하는 번거로움을 덜 수 있으니 꼭! 기억하자. 이 때 여러 달이 한꺼번에 보이는 문제가 생긴다. 이를 위해 필터에 년/월 단위로 날짜를 넣고 필터 표시를 단일 값(목록)으로 설정하면 달력처럼 볼..

[Tableau] 날짜 기준 매개변수 생성하기 Tableau에서 매개변수란, 계산이나 필터 또는 참조선 등 다른 계산을 할 때 상수값으로 대체할 수 있는 변수이다. 예를 들어, 어떤 날짜를 기준으로 해당 날짜 이후의 데이터만 확인하고 싶을 때 그 해당 날짜를 받아주는 변수가 매개변수이다. 이번 포스트에서는 이러한 매개변수 중 위의 예시처럼 날짜를 기준으로 매개변수를 생성하는 방법을 알아보자. 우선 왼쪽의 차원 메뉴에서 ▼를 눌러 [매개 변수 만들기...]를 클릭한다. 그 다음 이름을 정하고 데이터 유형에서 날짜를 선택한 뒤, 허용 가능한 값을 선택한다. 여기에서는 날짜에 대한 범위를 다른 변수로부터 지정해줄 것이므로 범위를 체크했다. 해당 범위를 직접 지정해줄 수도 있으며, 데이터 변수에서 불러올 수도 있다. 변수에서 불러올 경우 [필드에서 설정 >..

[R] 색상 이름 https://www.r-graph-gallery.com/42-colors-names.html

[Python] kmeans clustering 인턴하는 중 새로운 아이디어를 제안해주셔서 급하게 하게 된 군집분석. 까먹기 전에 기록해두기 위해 적어둔다. 우선 필요한 패키지를 불러온다. # 항상 불러와주는 기본 패키지들 import pandas as pd import numpy as np # plotting 용 패키지들 import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline # KMeans 알고리즘 from sklearn.cluster import KMeans 데이터를 정리하고 (보안상 생략) 모델링에 들어간다. inertia = [] for i in range(1,11): kmeans = KMeans(n_clusters=i) kmeans.fit(Xs) inertia.app..

[R] Clustering Algorithms (kmeans, PAM, CLARA) 1) kmeans 가장 통상적으로 알려진 클러스터링 기법이다. k개 클러스터 중심(centeroid)를 데이터 내에서 랜덤하게 잡은 뒤, 거리 기반으로 분류를 진행한다. 그리고 각 클러스터에 속한 데이터 평균을 클러스터 중심(centeroid)로 재설정한다. 이러한 알고리즘을 기반으로 진행되는 것이 kmeans 알고리즘이다. 하지만 데이터 '평균'을 이용하므로 이상치에 민감하다는 단점이 있다. 코드) https://heehehe-ds.tistory.com/17 2) PAM(Partitioning Around Medoids) kmeans의 단점을 보완한 기법으로, 데이터 평균 대신 medoid를 이용한다. medoid란 클러스터 내에서 가장 중심에 위치한 데이터, 즉 중앙값으로 보면 된다. 이를 통해 클러..

[Python] pandas 열에 na 들어갈 때 float type 처리 방법 데이터 전처리를 하다 보면 어떤 열에 na 값을 넣어야 할 때 np.nan으로 넣으면 해당 열이 float 형으로 변환될 때가 있다. 이 때 해당 열이 카테고리형 변수라서 float 형으로 보기 원하지 않는다면 다음과 같이 처리하면 된다. data[col] = data[col].astype('Int64')

이전 1 ··· 7 8 9 10 11 다음

티스토리툴바