[ADsP] 3-5. 정형 데이터 마이닝 (5) 군집 분석

* 요인분석 : 유사한 변수 함께 묶어줌
* 판별분석 : 사전에 나눠진 집단 자료 통해 새로운 데이터를 기존 집단에 할당

통계적 기법
- clustering, k-means
- 변수 선정하고 구간대로 나눈 뒤 격자형으로 단순히 나누고 집단 적으면 병합하기도
- 집단 간 프로파일 차이 나지 않을 때 존재 / 특성 변동 따라 고객 집단 이동할수도
목표기반 세분화 방법
- 고객가치, 특정상품 구매 고객 타겟으로 세분화
- 해당 집단 많이 존재하는 군집 구분
프로파일링 방법
- 격자 세분화 → 집단간 차이가 세분화 기준변수 의해 발생
- 자동화 방식으로 세분화되고 프로파일링해야 데이터 대한 일관된 품질 결과 나옴
세분화 수행기간 : 군집분석으로 기간 단축
세분집단 개수 : 보통 3~10개, 집단 내 분산 줄어듦을 파악
거리 : 유클리드, 표준화, 마할라노비스, 체비셰프, 맨하탄, 캔버라, 민코우스키 / 자카드 거리

k-means 군집분석
- 원하는 군집 개수, 초기값 시드 정하고 거리가 가장 가까운 시드로 군집 형성
  → 시드 다시 계산하는 과정을 모든 개체가 군집으로 할당될 때까지 반복
- 연속형 변수에 활용 가능 (거리 계산 기반이므로)
- 장점 : 단순 알고리즘, 빠르게 수행, 계층적 비해 많은 양 데이터 다룰 수 잇음
- 단점 : 군집 수, 가중치, 거리정의 어려움, non-convex 군집 성능 떨어짐

모형 기반 군집 방법
k개 모수적 모형을 가중함으로써 표현되는 모집단 모형으로부터 나왔다는 가정하에 가중치 추정
k개 모형 = 군집을 의미
각 데이터는 k개 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집 분류 이루어짐
EM 알고리즘 사용
- 각 자료에 대해 Z의 어느 집단에 속할지에 대한 조건부분포로부터 조건부 기댓값 구할 수 있음
- E단계 : 잠재변수 Z 기대치 계산
- M단계 : 잠재변수 Z 기대치 이용하여 파라미터 추정
- 관측변수 X와 잠재변수 Z를 포함하는 (X,Z)에 대한 로그-가능도함수에 Z 대신 Z 조건부 기대값을 대입하면 로그-가능도함수를 최대로 하는 모수 쉽게 찾을 수 있음
특징
- 확률분포 도입하여 군집 수행
- 군집을 몇 개의 모수로 표현 가능
- EM 알고리즘을 이용하기 때문에 데이터가 커지면 수렴이 오래걸릴 수 있음
- 군집 크기가 너무 작으면 추정 정도 떨어짐
- 이상치 자료에 민감

비지도 신경망 : 고차원 데이터를 저차원 뉴런으로 정렬하여 지도 형태로 형상화
실제 공간의 입력 변수가 가까이 있으면 지도상에도 가까운 위치에 존재
인공신경망 층 구성
- 입력층 : 입력 변수 개수와 동일한 뉴런 수 존재
- 학습을 통해 경쟁층에 정렬, 이를 map이라고 부름 (fully connected : 입력층 뉴런과 경쟁층 뉴런이 각각 모두 연결)
- 2차원 격자로 구성된 경쟁층(competitive layer) : 입력 벡터 특성 따라 한 점으로 clustering되는 층
feed-forward flow를 사용하여 속도가 매우 빨라 실시간 학습처리를 할 수 있음

출처 : ADsP 데이터 분석 준전문가 (윤종식 저)

heehehe.log