데이터과학 방법론 산업적용 현재와 미래

국가통계방법론 심포지엄: 국가통계의 현재와 미래




삼정 KPMG
이광춘

2020-09-24

Abstract

빅데이터(Big Data)를 통해 데이터는 과거 RDBMS 정형데이터 뿐만 아니라 비정형 데이터도 충분히 축적될 수 있는 기술적 기반이 마련된 반면에 데이터에 대한 저작권과 라이선스에 대한 이슈가 부각됨에 따라 한동안 혁신의 속도가 주춤했으나, 오픈 공공데이터를 통해서 자유로이 유통될 수 있는 환경이 마련되고 정부에서도 데이터 경제를 표방하면서 제2의 석유라고 불리는 데이터를 원자재로 삼아 부가가치를 창출하는 데이터 산업이 각광받고 있다.

통계학과 컴퓨터 과학을 통해 축적된 데이터에 대한 경험과 지식이 “데이터 과학”이라는 용어로 새롭게 정립되어 가고 동시에 산업현장에 대한 적용도 활발해지고 있다. 20세기 초반 생명표에 기반하여 보험업이라는 신생 산업이 태동했고, 신용평가모형을 근간으로 하는 신용카드 산업도 빼놓을 수는 대표적인 데이터 산업 중 하나다. 최근에는 단순히 데이터를 사용하기 좋은 형태인 RESTful API로 포장한 구독(Subscription)기반 데이터 사업도 번창하고 있다.

데이터를 산업현장에 적용하여 가치를 창출하는 제품과 서비스를 만들어 유통하기 위해서는 상당한 수준의 소프트웨어 및 데이터 공학(Software and Data Engineering) 기술이 필요한데 이 모든 과정에서 빠질 수 없는 것이 결국 사람이다. 데이터 과학자는 데이터 기반 제품과 서비스 원가의 대부분을 차지하면서도 데이터에서 가치를 가장 많이 창출하는 자리에 있다.

데이터 과학자가 어떤 언어와 방식으로 작업하느냐에 따라 눈에 보이지 않는 생산성은 물론이고 유지보수와 밀접한 관련이 있는 품질에도 지대한 영향을 미친다. “X 문법 (Grammar of X)”을 표방하는 새로운 Tidyverse 방법론은 데이터 문법(Grammar of Data, dplyr), 그래프 문법(Grammar of Graphics, ggplot2), 모형 문법(Grammar of Models, tidymodels) 등으로 구성되며 내재된 추상화와 모듈화 개념을 한번만 배우면 확장 가능한 고품질 데이터 과학 제품과 서비스 개발이 가능케 되었다. 이제 이러한 데이터 과학 혁신 방법론을 통해 더 나은 미래를 만들어가는데 성큼 다가설 수 있게 되었다.

데이터 경제와 산업

데이터 자원

파이프라인

가치

  • 기술 분석(Descriptive Analytics): 무슨 일이 있었나? (What happened?)
  • 진단 분석(Diagnostic Analytics): 왜 일어났나? (Why did it happen?)
  • 예측 분석(Predictive Analytics): 무슨 일이 일어날까? (What will happen?)
  • 처방 분석(Prescriptive Analytics): 어떻게 그런 일을 일으킬까? (How can we make it happen?)

비용

자동화

MSA

Tidyverse

(비)정형 데이터와 함수

데이터 사이언스 운영체제

tidyverse 운영체제

이광춘 ( 삼정 KPMG 상무), “데이터 사이언스 운영체제 - tidyverse”, 한국통계학회 소식지 2019년 10월호

작업 흐름

Tidyverse 데이터 사이언스 작업흐름

기계학습 알고리즘

CRISP-DM → MDP

X 문법 (Grammar of X)



  • Reuse existing data structures; 기존 자료구조 재사용.
  • Compose simple functions with the pipe; 파이프(pipe)를 사용해서 단순한 함수를 조합.
  • Embrace functional programming; 함수형 프로그래밍을 적극 포용.
  • Design for humans; 인간을 위한 설계

글쓰기 문법: Rmd

출처: https://statkclee.github.io/comp_document/

데이터 문법: dplyr

출처: https://statkclee.github.io/data-science/

그래프 문법: ggplot2

출처: https://statkclee.github.io/viz/

테이블 문법: gt

출처: https://statkclee.github.io/data-science/ds-table-gt-kable.html

텍스트 문법: tidytext

출처: https://statkclee.github.io/text/nlp-twitter-tidytext.html

모형 문법: tidymodels

출처: https://statkclee.github.io/model/tidyverse-model.html

예측 모형 (Predictive Model)

펭귄 데이터셋

탐색적 데이터 분석

모형 아키텍쳐

앙상블 Random Forest XGBoost

모형 최적화: Hyper Parameter Tuning

모형 배포: RESTful API

설명가능한 예측모형: Explainable AI

tidyposterior 모형 평가

예측모형 모의평가: Shiny

데이터 과학 커뮤니티