xwMOOC 기계학습
기계학습 지도(Map)와 통계모형
기계학습 기본사항
기계학습은 다음 세가지 사항을 기반으로 하고 있다. 패턴은 존재한다고 가정하는 부분에서 통계학의 회귀분석과 유사하나, 수학적으로 명세를 할 수 없다는 점에서 차이가 난다. 기계학습이나 회귀모형이나 둘다 데이터를 기반으로 한다.
- 패턴이 존재한다.
- 수학적으로 명시적으로 명세할 수 없다.
- 데이터를 갖고 있다.
기계학습을 구성하는 이론은 편향-분산(bias-variance), 복잡성, Vapnik–Chervonenkis 이론, 베이즈통계가 이론이 되고, 선형회귀모형을 비롯한 다양한 모형이 존재하고, 모형의 성능과 신뢰성을 높이고자 데이터 전처리, 교차타당성(cross validation), 정규화(regularization)등이 동원된다.
기계학습/회귀모형 구성요소
일반 모형을 “신호 + 잡음(signal + noise)”로 가정하고 다음과 같은 수식으로 표현할 수 있다.
\[y = f(x) + \epsilon\]
- 출력 : \(y\), 관심갖고 있는 결과변수
- 입력 : \(x\), 설명/예측 변수
- \(y\)의 변동성을 설명하는 목적의 모형을 구축하는 경우 \(x\)는 설명변수
- \(y\)의 변동성을 예측하는 목적의 모형을 구축하는 경우 \(x\)는 예측변수
- 가설: : \(g: x \rightarrow y\), \(x\)는 \(y\)에 영향을 주는 인과관계가 존재한다.
- 목적함수 : \(f: x \rightarrow y\), \(y\)와 \(x\)를 연관시켜주는 함수
- 데이터: \((x_1 , y_1 ), (x_2 , y_2 ), \dots, (x_n , y_n )\)
- 오차: \(\epsilon\), \(f: x \rightarrow y\)으로 설명되지 않는 부분
결국, 잡음이 낀 데이터에서 잡음을 제거하고 신호만 뽑아내는 것이 회귀모형, 기계학습 모형이라고 볼 수 있다. 회귀모형과 기계학습 모형은 회귀모형이 특정 함수형태를 가정하고 데이터에서 신호와 잡음을 구부하는데 초점이 과거 맞춰졌다면, 기계학습모형은 \(x\)는 \(y\)의 인과관계를 가정으로 놓고 신호와 잡음을 가장 잘 발라낼 수 있는 함수를 찾아내는데 초점을 두고 있다.