1. 군집분석 개요
- 각 객체 유사성 측정하여 유사성 높은 대상집단 분류
- 군집 속한 객체 유사성과 서로 다른 군집 속한 객체간 상이성 규명하는 분석 방법
- 거리 기준으로 군집화 유도
* 요인분석 : 유사한 변수 함께 묶어줌
* 판별분석 : 사전에 나눠진 집단 자료 통해 새로운 데이터를 기존 집단에 할당
2. 전통적 군집분석
- 통계적 기법
- clustering, k-means
- 변수 선정하고 구간대로 나눈 뒤 격자형으로 단순히 나누고 집단 적으면 병합하기도
- 집단 간 프로파일 차이 나지 않을 때 존재 / 특성 변동 따라 고객 집단 이동할수도 - 목표기반 세분화 방법
- 고객가치, 특정상품 구매 고객 타겟으로 세분화
- 해당 집단 많이 존재하는 군집 구분 - 프로파일링 방법
- 격자 세분화 → 집단간 차이가 세분화 기준변수 의해 발생
- 자동화 방식으로 세분화되고 프로파일링해야 데이터 대한 일관된 품질 결과 나옴 - 세분화 수행기간 : 군집분석으로 기간 단축
- 세분집단 개수 : 보통 3~10개, 집단 내 분산 줄어듦을 파악
- 거리 : 유클리드, 표준화, 마할라노비스, 체비셰프, 맨하탄, 캔버라, 민코우스키 / 자카드 거리
3. 계층적 군집방법
- n개 군집으로 시작해서 점차 군집 개수 줄여나가는 방법
- 최단연결법 : 가장 가까운 데이터 묶어서 군집형성
- 최장연결법 : 거리가 먼 데이터 묶어서 군집형성
- 평균연결법 : 거리 구할 때 평균 사용
- 와드연결법 : 군집 내 편차들의 제곱합 고려
4. 비계층적 군집방법
- k-means 군집분석
- 원하는 군집 개수, 초기값 시드 정하고 거리가 가장 가까운 시드로 군집 형성
→ 시드 다시 계산하는 과정을 모든 개체가 군집으로 할당될 때까지 반복 - 연속형 변수에 활용 가능 (거리 계산 기반이므로)
- 장점 : 단순 알고리즘, 빠르게 수행, 계층적 비해 많은 양 데이터 다룰 수 잇음
- 단점 : 군집 수, 가중치, 거리정의 어려움, non-convex 군집 성능 떨어짐
- 원하는 군집 개수, 초기값 시드 정하고 거리가 가장 가까운 시드로 군집 형성
5. 혼합 분포 군집 (mixture distribution clustering)
- 모형 기반 군집 방법
- k개 모수적 모형을 가중함으로써 표현되는 모집단 모형으로부터 나왔다는 가정하에 가중치 추정
- k개 모형 = 군집을 의미
- 각 데이터는 k개 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집 분류 이루어짐
- EM 알고리즘 사용
- 각 자료에 대해 Z의 어느 집단에 속할지에 대한 조건부분포로부터 조건부 기댓값 구할 수 있음
- E단계 : 잠재변수 Z 기대치 계산
- M단계 : 잠재변수 Z 기대치 이용하여 파라미터 추정
- 관측변수 X와 잠재변수 Z를 포함하는 (X,Z)에 대한 로그-가능도함수에 Z 대신 Z 조건부 기대값을 대입하면 로그-가능도함수를 최대로 하는 모수 쉽게 찾을 수 있음 - 특징
- 확률분포 도입하여 군집 수행
- 군집을 몇 개의 모수로 표현 가능
- EM 알고리즘을 이용하기 때문에 데이터가 커지면 수렴이 오래걸릴 수 있음
- 군집 크기가 너무 작으면 추정 정도 떨어짐
- 이상치 자료에 민감
6. SOM(Self-Organizing Map, 자기조직화 지도)
- 비지도 신경망 : 고차원 데이터를 저차원 뉴런으로 정렬하여 지도 형태로 형상화
- 실제 공간의 입력 변수가 가까이 있으면 지도상에도 가까운 위치에 존재
- 인공신경망 층 구성
- 입력층 : 입력 변수 개수와 동일한 뉴런 수 존재
- 학습을 통해 경쟁층에 정렬, 이를 map이라고 부름 (fully connected : 입력층 뉴런과 경쟁층 뉴런이 각각 모두 연결)
- 2차원 격자로 구성된 경쟁층(competitive layer) : 입력 벡터 특성 따라 한 점으로 clustering되는 층 - feed-forward flow를 사용하여 속도가 매우 빨라 실시간 학습처리를 할 수 있음
7. 최신 군집분석 기법들
- Hierarchical Clustering
> hclust(dist(iris.s), method="ave") - K-means Clustering
> kmeans(iris, 3)
출처 : ADsP 데이터 분석 준전문가 (윤종식 저)
반응형
'DATA SCIENCE > ADSP' 카테고리의 다른 글
[ADsP] 3-5. 정형 데이터 마이닝 (6) 연관 분석 (0) | 2020.06.06 |
---|---|
[ADsP] 3-5. 정형 데이터 마이닝 (4) 인공신경망 분석 (0) | 2020.06.06 |
[ADsP] 3-5. 정형 데이터 마이닝 (3) 앙상블 분석 (0) | 2020.06.06 |
[ADsP] 3-5. 정형 데이터 마이닝 (2) 의사결정나무 분석 (0) | 2020.06.06 |
[ADsP] 3-5. 정형 데이터 마이닝 (1) 개요 (0) | 2020.06.06 |