xwMOOC 기계학습
(사업) 문제의 정의
학습목표
- 통계와 실사업 적용에 대해 이해한다.
- 데이터, 모형, 실사업 연관성을 파악한다.
- 도대체 사람은 무슨 역할을 하나?
기계학습(Machine Learning, ML)은 기계(Machine) 가 스스로 작업을 학습(Learning) 할 수 있게 가르치는 것으로, 기계학습은 과거 데이터 마이닝(Data Mining), 예측 분석(Predictive Analysis) 등으로 불리기도 했다.
문제 유형 1
- 탐색(Exploration): 추세나 변수간 관계 같은 패턴을 데이터에서 찾아, 후속 공정에서 귀무/대립 가설을 생성시킨다.
- 기술(Descriptive): 평균 소득, 임금 표준오차, 모집단에서 왼손잡이 비율 등 데이터를 요약한다.
- 추론(Inference): 가설을 지지하는 추론 질문을 생성한다.
- 예측(Prediction): 미래 행동양상을 예측한다. 소득을 분석해서 평균 기대수명을 예측한다.
- 인과성(Causality): 인과관계를 파악하는 것으로 흡연과 폐암과의 인과성을 규명한다.
- 메커니즘(Mechanism): 기계적 메커니즘을 파악한다.
통계기법 구분
- 기술 통계: 탐색적 데이터 분석이 이 범주에 속하고 데이터를 단순히 기술하고 이해하는 목적으로 주로 사용한다. 예를 들어, 우리회사 고객의 평균 매출액은 얼마인가?
- 추론 통계: 데이터가 생성된 모집단에 대한 추론을 가능하게 한다. 예측모형, 기계학습 등이 이런 범주에 포함된다.
실사업 질문 사례
실사업 질문 | 통계 기법 |
---|---|
가장 수익성 높은 고객은 누구? | 기술 통계 |
지방과 수도권 고객간에 수익성에 차이가 있나? | 가설 검정 |
수도권 지방 고객의 일반적인 특징은? | 고객 세분화와 군집분석 |
이번 특판행사 고객은 정말 수익성 높은 고객으로 될까? | 예측 모형 |
신경망 모형과 나는 무슨 관계일까?
- Computer Vision = what can NN do for me.
- Machine Learning = what can I do for NN.
- Sanja Fisler
문제를 기계학습으로 변환
- 과거 거래 실적에 근거해서, 고객이 어떤 제품을 구매할 것인지 예측, 혹은 고객이 특정 검색 조건을 제시했을 때, 제품을 제시하는 최적 방법 결정
- 비지도 학습으로 유사성과 거리 관계를 기준으로 묶음, 영화추천 등 → K-means 클러스터링, k-최근접 이웃 방법(k-Nearest neighbor)
- 장바구니에 함께 구매하는 패턴을 학습 → 연관성 규칙
- 웹브라우져 동일 세션에서 웹페이지 예측 → 연관성 규칙
- 특정 웹페이지와 Adwords 광고효과 예측 → 연관성 규칙
- 사기탐지, 해킹 거래 식별
- → 선형, 이항 회귀모형
- 다양한 제품 가격을 변경시켰을 때 가격 탄력성 결정 → 회귀 문제
- 유사한 집단내 혹은 외부 패턴에 따른 군집분석
- 동일한 지역 혹은 동일한 고객 집단에서 가장 인기있는 제품을 식별 → K-means (동일 집단)
- 유사한 주제 혹은 정치적 이슈에 가장 활발히 논의되는 신문기사 식별 → K-means (동일 집단)
- 다른 유사한 고객의 구매정보에 기반해서 제품 추천 → k-최근접 이웃 방법 (유사 집단)
- 과거 거래된 실적 혹은 경매된 실적에 근거해서 최종 가격, 실적 예측 → k-최근접 이웃 방법 (유사 집단)
- 마케팅 캠페인 효과 분석
- 마케팅 캠페인 전과 후 효과 분석 → AB 테스팅
- 일정금액 매출 향상 혹은 수익 개선을 예측 → 회귀, 점수(scoring)
분류 알고리즘 | 설명 |
---|---|
나이브 베이즈 | 제품 범주화 문제를 해결하는데 적합, 입력변수가 많고, 특히 범주형 변수마다 값 수준도 많을 때 사용 |
의사결정 나무 | 만약 … 그러면 (If then) 구조를 갖는 경우 적합하고, 특히 비전문가에게 설명하기 용이 |
이항 회귀모형 | 이항 회귀모형은 본질적으로 분류기라기 보다는 점수를 매기는 것으로 컷오프를 정해야 하고, 특히 입력값을 조정했을 때 결과확률이 얼마나 영향을 미치는지 파악하는데 용이 |
SVM | SVM은 가정사항이 상대적으로 적고, 입력변수가 많고 서로 복잡한 상호작용이 존재하는 경우 적용이 용이 |