1. 인공신경망분석(ANN)
- 연구 과정
- '뇌=디지털 네트워크 모형'으로 간주하고 신경세포 신호처리 과정을 모형화하여 단순 패턴분류 모형 개발
- 뉴런 사이 연결강도 조정하여 학습규칙 개발 (Hebb)
- 퍼셉트론 개발했었으나, XOR 문제 풀지 못함 (Rosenblatt, 1955)
- 역전파 알고리즘 (backpropagation) 활용하여 비선형성 극복 (Hopfild, Rumelhart, McClelland) - 가중치 반복적으로 조정하며 학습
- 뉴런이 링크로 연결되어 있으며, 각 링크별 수치적 가중치 존재
- 가중치 초기화한 뒤, 훈련 데이터 통해 갱신 - 입력 링크에서 여러 신호 받아 새로운 활성화 수준 계산하고 출력 링크로 출력 신호 보냄
- 입력 : 미가공 데이터 or 다른 뉴런의 출력
- 출력 : 최종 solution or 다른 뉴런의 입력 - 활성화 함수 사용 : 계단함수, 부호함수, 시그모이드 함수, 선형함수 등
- 입력 신호의 가중치 합을 계산하여 임계값과 비교
- 임계값보다 작으면 -1, 같거나 크면 1로 출력 - 단일 뉴런(단층 퍼셉트론) : 선형 결합기 + 하드 리미터
- 초평면을 선형 분리 함수로 정의
2. 신경망 모형 구축시 고려사항
- 입력 변수
- 범주형 변수 : 각 범주 빈도가 일정하고 모든 범주에서 일정빈도 이상의 값 가질 때 (가변수화 - 여자 1, 남자 0)
- 연속형 변수 : 변수간 범위가 큰 차이 없을 때 (로그변환, 범주화 등 이용) - 가중치 초기값과 다중 최소값 문제
- 초기값에 따라 결과가 많이 달라지므로 초기값 선택이 중요
- 가중치 = 0이면 시그모이드 함수 → 선형, 신경망 모형 → 근사적 선형 모형이 됨
- 초기값은 0 근처로 랜덤하게 선택 → 가중치값 증가할수록 비선형모형
- 반복해도 가중치값 바뀌지 않으면 좋지 않은 해를 주는 문제점 지님 - 학습 모드
- 온라인 학습모드 : 관측값 순차적으로 투입 (가중치 추정값 매번 변경됨)
- 속도 빠름, 훈련자료가 비정상성(nonstationarity) 가지는 등 특이한 성질 가진 경우가 좋음
- local minimum에서 벗어나기 쉬움
* 학습률 : 처음에는 큰 값으로, 반복 수행 통해 해에 가까워질수록 0에 수렴하게 함
- 확률적 학습모드 : 관측값 순서 랜덤, 나머지는 온라인 학습모드와 동일
- 배치(batch) 학습모드 : 전체 훈련자료 동시에 투입 - 은닉층(hidden layer)과 은닉노드(hidden node) 수
- 많아지면 가중치 높아져 과적합 문제 발생 ↔ 적어지면 과소적합 문제 발생
- 은닉층 수 결정 : 가능하면 1개로 (모든 매끄러운 함수 근사적 표현 가능)
- 은닉노드 수 결정 : 적절히 큰 값으로 놓고 가중치 감소시키며 적용 - 과대 적합 문제 해결 방법
- 조기종료 : 검증오차 증가하기 시작하면 반복 중지
- 가중치 감소 기법 (벌점화 기법) 활용
3. 로지스틱 회귀분석 (Logistic Regression)
- 반응변수가 범주형일 때 적용하는 회귀분석모형
- 새로운 설명변수 주어질 때 반응변수의 각 범주에 속할 확률 추정하여, 추정 확률을 기준치 따라 분류하는 모형
- 사후확률 (Posterior Probability) : 모델 적합 통해 추정된 확률
- exp(β1) : 나머지 변수(x1,...,xk)가 주어질 때 x1이 한단위 증가할 때마다 성공 오즈(Y=1)가 몇 배 증가하는지 나타내는 값
- 표준 로지스틱 분포의 누적분포함수로 성공 확률 추정
> glm(Y~X1+...+Xk, family=binomial, data=data)
출처 : ADsP 데이터 분석 준전문가 (윤종식 저)
반응형
'DATA SCIENCE > ADSP' 카테고리의 다른 글
[ADsP] 3-5. 정형 데이터 마이닝 (6) 연관 분석 (0) | 2020.06.06 |
---|---|
[ADsP] 3-5. 정형 데이터 마이닝 (5) 군집 분석 (0) | 2020.06.06 |
[ADsP] 3-5. 정형 데이터 마이닝 (3) 앙상블 분석 (0) | 2020.06.06 |
[ADsP] 3-5. 정형 데이터 마이닝 (2) 의사결정나무 분석 (0) | 2020.06.06 |
[ADsP] 3-5. 정형 데이터 마이닝 (1) 개요 (0) | 2020.06.06 |