본문 바로가기

DATA SCIENCE/ADSP

[ADsP] 3-5. 정형 데이터 마이닝 (5) 군집 분석

1. 군집분석 개요

  • 각 객체 유사성 측정하여 유사성 높은 대상집단 분류
  • 군집 속한 객체 유사성과 서로 다른 군집 속한 객체간 상이성 규명하는 분석 방법
  • 거리 기준으로 군집화 유도
* 요인분석 : 유사한 변수 함께 묶어줌
* 판별분석 : 사전에 나눠진 집단 자료 통해 새로운 데이터를 기존 집단에 할당

2. 전통적 군집분석

  • 통계적 기법
    - clustering, k-means
    - 변수 선정하고 구간대로 나눈 뒤 격자형으로 단순히 나누고 집단 적으면 병합하기도
    - 집단 간 프로파일 차이 나지 않을 때 존재 / 특성 변동 따라 고객 집단 이동할수도
  • 목표기반 세분화 방법
    - 고객가치, 특정상품 구매 고객 타겟으로 세분화

    - 해당 집단 많이 존재하는 군집 구분
  • 프로파일링 방법
    - 격자 세분화 → 집단간 차이가 세분화 기준변수 의해 발생

    - 자동화 방식으로 세분화되고 프로파일링해야 데이터 대한 일관된 품질 결과 나옴
  • 세분화 수행기간 : 군집분석으로 기간 단축
  • 세분집단 개수 : 보통 3~10개, 집단 내 분산 줄어듦을 파악
  • 거리 : 유클리드, 표준화, 마할라노비스, 체비셰프, 맨하탄, 캔버라, 민코우스키 / 자카드 거리

3. 계층적 군집방법

  • n개 군집으로 시작해서 점차 군집 개수 줄여나가는 방법
  • 최단연결법 : 가장 가까운 데이터 묶어서 군집형성
  • 최장연결법 : 거리가 먼 데이터 묶어서 군집형성
  • 평균연결법 : 거리 구할 때 평균 사용
  • 와드연결법 : 군집 내 편차들의 제곱합 고려

4. 비계층적 군집방법

  • k-means 군집분석
    • 원하는 군집 개수, 초기값 시드 정하고 거리가 가장 가까운 시드로 군집 형성
      → 시드 다시 계산하는 과정을 모든 개체가 군집으로 할당될 때까지 반복
    • 연속형 변수에 활용 가능 (거리 계산 기반이므로)
    • 장점 : 단순 알고리즘, 빠르게 수행, 계층적 비해 많은 양 데이터 다룰 수 잇음
    • 단점 : 군집 수, 가중치, 거리정의 어려움, non-convex 군집 성능 떨어짐

5. 혼합 분포 군집 (mixture distribution clustering)

  • 모형 기반 군집 방법
  • k개 모수적 모형을 가중함으로써 표현되는 모집단 모형으로부터 나왔다는 가정하에 가중치 추정
  • k개 모형 = 군집을 의미
  • 각 데이터는 k개 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집 분류 이루어짐
  • EM 알고리즘 사용
    - 각 자료에 대해 Z의 어느 집단에 속할지에 대한 조건부분포로부터 조건부 기댓값 구할 수 있음
    - E단계 : 잠재변수 Z 기대치 계산
    - M단계 : 잠재변수 Z 기대치 이용하여 파라미터 추정
    - 관측변수 X와 잠재변수 Z를 포함하는 (X,Z)에 대한 로그-가능도함수에 Z 대신 Z 조건부 기대값을 대입하면 로그-가능도함수를 최대로 하는 모수 쉽게 찾을 수 있음
  • 특징
    - 확률분포 도입하여 군집 수행
    - 군집을 몇 개의 모수로 표현 가능
    - EM 알고리즘을 이용하기 때문에 데이터가 커지면 수렴이 오래걸릴 수 있음
    - 군집 크기가 너무 작으면 추정 정도 떨어짐
    - 이상치 자료에 민감

6. SOM(Self-Organizing Map, 자기조직화 지도)

  • 비지도 신경망 : 고차원 데이터를 저차원 뉴런으로 정렬하여 지도 형태로 형상화
  • 실제 공간의 입력 변수가 가까이 있으면 지도상에도 가까운 위치에 존재
  • 인공신경망 층 구성
    - 입력층 : 입력 변수 개수와 동일한 뉴런 수 존재
    - 학습을 통해 경쟁층에 정렬, 이를 map이라고 부름 (fully connected : 입력층 뉴런과 경쟁층 뉴런이 각각 모두 연결)
    - 2차원 격자로 구성된 경쟁층(competitive layer) : 입력 벡터 특성 따라 한 점으로 clustering되는 층
  • feed-forward flow를 사용하여 속도가 매우 빨라 실시간 학습처리를 할 수 있음

7. 최신 군집분석 기법들

  • Hierarchical Clustering
    > hclust(dist(iris.s), method="ave")
  • K-means Clustering
    > kmeans(iris, 3)

 

출처 : ADsP 데이터 분석 준전문가 (윤종식 저)

반응형