본문 바로가기

[Python] kmeans clustering 인턴하는 중 새로운 아이디어를 제안해주셔서 급하게 하게 된 군집분석. 까먹기 전에 기록해두기 위해 적어둔다. 우선 필요한 패키지를 불러온다. # 항상 불러와주는 기본 패키지들 import pandas as pd import numpy as np # plotting 용 패키지들 import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline # KMeans 알고리즘 from sklearn.cluster import KMeans 데이터를 정리하고 (보안상 생략) 모델링에 들어간다. inertia = [] for i in range(1,11): kmeans = KMeans(n_clusters=i) kmeans.fit(Xs) inertia.app..
[R] Clustering Algorithms (kmeans, PAM, CLARA) 1) kmeans 가장 통상적으로 알려진 클러스터링 기법이다. k개 클러스터 중심(centeroid)를 데이터 내에서 랜덤하게 잡은 뒤, 거리 기반으로 분류를 진행한다. 그리고 각 클러스터에 속한 데이터 평균을 클러스터 중심(centeroid)로 재설정한다. 이러한 알고리즘을 기반으로 진행되는 것이 kmeans 알고리즘이다. 하지만 데이터 '평균'을 이용하므로 이상치에 민감하다는 단점이 있다. 코드) https://heehehe-ds.tistory.com/17 2) PAM(Partitioning Around Medoids) kmeans의 단점을 보완한 기법으로, 데이터 평균 대신 medoid를 이용한다. medoid란 클러스터 내에서 가장 중심에 위치한 데이터, 즉 중앙값으로 보면 된다. 이를 통해 클러..
[Python] pandas 열에 na 들어갈 때 float type 처리 방법 데이터 전처리를 하다 보면 어떤 열에 na 값을 넣어야 할 때 np.nan으로 넣으면 해당 열이 float 형으로 변환될 때가 있다. 이 때 해당 열이 카테고리형 변수라서 float 형으로 보기 원하지 않는다면 다음과 같이 처리하면 된다. data[col] = data[col].astype('Int64')