본문 바로가기

DATA SCIENCE/ADSP

[ADsP] 3-5. 정형 데이터 마이닝 (6) 연관 분석

1. 연관규칙 (Association Analysis)

  • 상품 구매, 서비스 등 일련의 거래 또는 사건들 간 규칙 발견 위해 적용 (장바구니 분석, 서열분석)
  • 개념
    - if-then 형태 (Item set A → Item set B)
  • 측도
    - 지지도(support) = P(A∩B)
    - 신뢰도(confidence) = P(A∩B) / P(A) = 지지도(support) / P(A)
    - 향상도(lift) = P(B|A) / P(B) = P(A∩B) / P(A)*P(B)
  • 절차
    - 최소 지지도 결정 → 최소 지지도보다 넘는 품목 분류 → 2가지 품목 집합 생성 → 반복적 수행 통해 자주 나오는 품목 집합 찾기
    - 처음에는 5% 정도로 잡고 규칙 충분히 도출되는지 확인 후 다양하게 조절하여 시도
  • 장점
    - 탐색적 기법(조건반응으로 표현되는 결과 쉽게 이해)
    - 강력한 비목적성 분석기법(목적변수 없는 경우)
    - 사용 편리한 분석 데이터 형태(데이터 변환 X)
    - 계산 용이성
  • 단점
    - 계산량 많음 → 유사 품목 한 범주로 일반화, 신뢰도 하한 새롭게 정의
    - 적절 품목 결정 → 보다 큰 범주로 구분
    - 품목 비율 차이 → 유사 품목들로 범주 재구성
  • 순차패턴 : 시간 개념 포함, 순차적으로 구매 가능성 큰 상품군 찾아냄

2. 연관성분석 이슈 및 동향

  • 기존 연관성 분석 이슈
    - 대용량 데이터 대해 분석 불가능
    - 시간 오래 걸리면 시스템 다운
  • 최근 연관성분석 동향
    - 3세대 FPV 이용해 메모리 효율적 사용
  • 연관성분석 활용방안
    - 실시간 상품추천 통한 교차판매

> data[['Y']] <- ordered(cut(data[['Y']], c(-Inf, 0, median(data[['Y']][data[['Y']]>0]), labels=c('None','Low','High')) # 구간화
> itemFrequencyPlot(data, support=0.1, cex.names=0.8)

 

출처 : ADsP 데이터 분석 준전문가 (윤종식 저)

반응형