xwMOOC 기계학습

(사업) 문제의 정의

학습목표

  • 통계와 실사업 적용에 대해 이해한다.
  • 데이터, 모형, 실사업 연관성을 파악한다.
  • 도대체 사람은 무슨 역할을 하나?

기계학습(Machine Learning, ML)은 기계(Machine) 가 스스로 작업을 학습(Learning) 할 수 있게 가르치는 것으로, 기계학습은 과거 데이터 마이닝(Data Mining), 예측 분석(Predictive Analysis) 등으로 불리기도 했다.

문제 유형 1

  • 탐색(Exploration): 추세나 변수간 관계 같은 패턴을 데이터에서 찾아, 후속 공정에서 귀무/대립 가설을 생성시킨다.
  • 기술(Descriptive): 평균 소득, 임금 표준오차, 모집단에서 왼손잡이 비율 등 데이터를 요약한다.
  • 추론(Inference): 가설을 지지하는 추론 질문을 생성한다.
  • 예측(Prediction): 미래 행동양상을 예측한다. 소득을 분석해서 평균 기대수명을 예측한다.
  • 인과성(Causality): 인과관계를 파악하는 것으로 흡연과 폐암과의 인과성을 규명한다.
  • 메커니즘(Mechanism): 기계적 메커니즘을 파악한다.

통계기법 구분

  • 기술 통계: 탐색적 데이터 분석이 이 범주에 속하고 데이터를 단순히 기술하고 이해하는 목적으로 주로 사용한다. 예를 들어, 우리회사 고객의 평균 매출액은 얼마인가?
  • 추론 통계: 데이터가 생성된 모집단에 대한 추론을 가능하게 한다. 예측모형, 기계학습 등이 이런 범주에 포함된다.

실사업 질문 사례

실사업 질문 통계 기법
가장 수익성 높은 고객은 누구? 기술 통계
지방과 수도권 고객간에 수익성에 차이가 있나? 가설 검정
수도권 지방 고객의 일반적인 특징은? 고객 세분화와 군집분석
이번 특판행사 고객은 정말 수익성 높은 고객으로 될까? 예측 모형

신경망 모형과 나는 무슨 관계일까?

  • Computer Vision = what can NN do for me.
  • Machine Learning = what can I do for NN.
    - Sanja Fisler

문제를 기계학습으로 변환

  • 과거 거래 실적에 근거해서, 고객이 어떤 제품을 구매할 것인지 예측, 혹은 고객이 특정 검색 조건을 제시했을 때, 제품을 제시하는 최적 방법 결정
    • 비지도 학습으로 유사성과 거리 관계를 기준으로 묶음, 영화추천 등 → K-means 클러스터링, k-최근접 이웃 방법(k-Nearest neighbor)
    • 장바구니에 함께 구매하는 패턴을 학습 → 연관성 규칙
    • 웹브라우져 동일 세션에서 웹페이지 예측 → 연관성 규칙
    • 특정 웹페이지와 Adwords 광고효과 예측 → 연관성 규칙
  • 사기탐지, 해킹 거래 식별
    • → 선형, 이항 회귀모형
  • 다양한 제품 가격을 변경시켰을 때 가격 탄력성 결정 → 회귀 문제
  • 유사한 집단내 혹은 외부 패턴에 따른 군집분석
    • 동일한 지역 혹은 동일한 고객 집단에서 가장 인기있는 제품을 식별 → K-means (동일 집단)
    • 유사한 주제 혹은 정치적 이슈에 가장 활발히 논의되는 신문기사 식별 → K-means (동일 집단)
    • 다른 유사한 고객의 구매정보에 기반해서 제품 추천 → k-최근접 이웃 방법 (유사 집단)
    • 과거 거래된 실적 혹은 경매된 실적에 근거해서 최종 가격, 실적 예측 → k-최근접 이웃 방법 (유사 집단)
  • 마케팅 캠페인 효과 분석
    • 마케팅 캠페인 전과 후 효과 분석 → AB 테스팅
    • 일정금액 매출 향상 혹은 수익 개선을 예측 → 회귀, 점수(scoring)
분류 알고리즘 설명
나이브 베이즈 제품 범주화 문제를 해결하는데 적합, 입력변수가 많고, 특히 범주형 변수마다 값 수준도 많을 때 사용
의사결정 나무 만약 … 그러면 (If then) 구조를 갖는 경우 적합하고, 특히 비전문가에게 설명하기 용이
이항 회귀모형 이항 회귀모형은 본질적으로 분류기라기 보다는 점수를 매기는 것으로 컷오프를 정해야 하고, 특히 입력값을 조정했을 때 결과확률이 얼마나 영향을 미치는지 파악하는데 용이
SVM SVM은 가정사항이 상대적으로 적고, 입력변수가 많고 서로 복잡한 상호작용이 존재하는 경우 적용이 용이