xwMOOC 기계학습

데이터를 통한 문제풀이 과정

학습목표

  • 다양한 데이터를 이해한다.

기계학습 과정

기계학습은 사전에 문제가 정의되어 있다면 데이터를 찾아 이를 정제하고, 탐색적 데이터 분석과정을 거쳐 다양한 통계적 모형, 기계학습 모형을 적용하여 최적의 모형을 찾는 과정을 거쳐 모형성능을 평가하는 연속된 과정이며, 그 과정 내부에서 사람과 데이터, 모형과 데이터 사이에 반복적인 노동집약적 과정을 거치게 된다.

기계학습 프로세스

통상적인 데이터 과학 추진 과정 1

상기 기계학습 과정을 정형화해서 표현하면, 데이터 과학은 OSEMN 이다.

  • 데이터 수집(Obtaining data)
  • 데이터 정제(Scrubbing data)
  • 데이터 탐색(Exploring data)
  • 데이터 모형개발(Modeling data)
  • 데이터 해석(iNterpreting data)

데이터 정제 2

데이터를 정제하는 과정은 “DJ Patil”이 언급했듯이, 80% 작업시간이 소요되어 상대적으로 멋진 시각화와 정교한 모형개발에는 적은 시간이 소요된다.

  • 행과 열 뽑아내기
  • 새로운 열과 행 생성하기
  • 그룹단위로 통계량 계산하기, 축약하기,
  • 데이터를 붙이고 결합하기.
  • 새로운 값으로 바꾸기
  • 단어 추출하기
  • 결측값 처리
  • A 파일형식에서 B 파일형식으로 변환하기

시각화 및 모형 커뮤니케이션

데이터에서 최종 시각화 산출물과 모형이 얻어지면, 성능을 평가하고, 결과물을 시스템에 배포하거나, 별도 보고서로 작성하여 고객에게 전달하는 과정을 끝으로 모든 작업을 마무리하게 된다.