class: center, middle, inverse, title-slide # 데이터과학 스토리텔링 ##
문제정의-분석-적용 ### 데이터 과학자 이광춘 ### 2018/06/22 --- ### 계급을 나누는 기준 - 데이터 .center[ <iframe width="560" height="315" src="" frameborder="0" allow="autoplay; encrypted-media" allowfullscreen></iframe> ] “고대에는 ’땅’이 가장 중요했고 땅이 소수에게 집중되자 인간은 귀족과 평민으로 구분됐으며, 근대에는 ’기계’가 중요해지면서 기계가 소수에게 집중되자 인간은 자본가와 노동자 계급으로 구분됐다”. 이제는 데이터가 또 한번 인류를 구분하는 기준이 될 것이다. 향후 데이터가 소수에게 집중되면 단순 계급에 그치는 게 아니라 **데이터**를 가진 종과 그렇지 못한 종으로 분류될 것이이다. - 유발 하라리(Yuval Noah Harari) --- background-image: url("fig/ds-gartner.png") background-size: 800px --- # 가트너 데이터 과학 - 기술 분석(Descriptive Analytics): 무슨 일이 있었나? (What happened?) - 진단 분석(Diagnostic Analytics): 왜 일어났나? (Why did it happen?) - 예측 분석(Predictive Analytics): 무슨 일이 일어날까? (What will happen?) - 처방 분석(Prescriptive Analytics): 어떻게 그런 일을 일으킬까? (How can we make it happen?) 이를 통해 뒤늦은 깨달음(Hindsight) 복기, 깨달음/통찰력(Insight), 예지력/선견지명(Foresight)을 얻을 수 있다. 가치도 크지만 그에 따른 어려움도 가중된다. .footnote[ [xwMOOC - tidyverse 데이터 과학 기본체계]( ] --- ### 제멜바이스 .center[ <img src="fig/Semmelweis.jpg" alt="Ignaz Semmelweis, (1818.7.1 ~ 1865.8.13)" width="40%" /> ] .footnote[ [기초 통계: 손씻기 그리고 통계 - 제멜바이스]( ] --- ## 마스터 알고리즘 .center[ <img src="fig/programming_machine_learning_comparison.png" alt="마스터 알고리즘" width="60%" /> ] .footnote[ - [궁극의 주인이 될 알고리즘(Master Algorithm)]( ] --- class: inverse, middle, center # 6 `\(\Huge{\sigma}\)` --- ## 6 `\(\large{\sigma}\)` - 통계적 사고(Statistical Thinking) 패러다임 - 모든 것은 프로세스 (Everything is a process) - 모든 프로세스는 내재적 변동성이 존재. (All processes have inherent variability) - 데이터를 사용해서 변동성을 이해하고, 프로세스를 개선하는 의사결정을 내림. (Data are used to understand variation and to drive decisions to improve the processes.) - 수학적 관점 `$$g(y_{\text{고객 만족, 수익성}})=f(x_{1}^*, x_{2}, x_{3}^*, \cdots, x_{k})$$` - `\(x_{\cdot}\)` : 표준, 공학 프로세스, 제품혁신, 시장요인 등 - `\(x_{\cdot}^*\)` : 핵심요인(Vital Few) --- ## 방법으로 6 `\(\large{\sigma}\)` 이해 .center[ <img src="fig/six-sigma-method.png" alt="6시그마 방법" width="100%" /> ] --- ## DMAIC .center[ <img src="fig/dmaic.png" alt="DMAIC" width="70%" /> ] --- ## 통계모형 `$$\Huge{Y = X\beta + \epsilon}$$` - **Define**: `\(Y\)`, `\(X\)` 정의 - **Measure**: 데이터 수집을 통한 측정 - **Analyse**: 분석을 통한 방정식 최적 `\(\beta\)` 찾기 - **Improve**: 최적 설계를 통한 `\(X\)` 찾기 - **Monitor**: 최적수준 `\(Y\)` 유지관리 --- ## DMAIC → 통계도구상자 .center[ <img src="fig/dmaic-stat-toolbox.png" alt="DMAIC와 통계도구상자" width="100%" /> ] --- ## 미니탭과 수정구슬 .pull-left[ ### 미니탭(Minitab) <img src="fig/simulation-crystalball.png" alt="Crystal ball" width="100%" /> ] .pull-right[ ### 수정구슬(Crystal Ball) <img src="fig/experiemnt-minitab.png" alt="Minitab" width="100%" /> ] --- class: inverse, middle, center # 데이터 과학 --- ## 보고서 vs. 알고리즘 .center[ <img src="fig/stat-modeling-workflow.png" alt="데이터 과학과 통계모형" width="120%" /> ] .footnote[ [기초 통계 -통계 모형(Statistical models)]( ] --- ## 데이터 크기 .center[ <img src="fig/spark-ds-hardware-data.png" alt="" width="100%" /> ] .footnote[ [데이터 과학: 빅데이터 - tidyverse 스파크]( ] --- ## 베이지안 A/B 검정 .center[ <img src="fig/ab-testing-campaigns.png" alt="베이지안 A/B 검정" width="100%" /> ] .footnote[ [기초 통계 - 베이지안 A/B 검정]( ] --- ### 데이터 과학 투여비용 .center[ <img src="fig/ds-data-science-workflow-coding.png" alt="" width="70%" /> ] .footnote[ [PLOTCON 2016: Jenny Bryan, Behind every great plot there is a great deal of wrangling]( ] --- background-image: url("fig/r-history.png") background-size: 1024px .footnote[ [데이터 과학과 R 언어]( ] --- ## 빅데이터 .center[ <img src="fig/multicore-cluster.png" alt="컴퓨팅 패러다임" width="100%" /> ] .footnote[ [고성능 컴퓨팅(HPC) - 고성능 컴퓨팅 기초]( ] --- ## 보고서 .center[ <img src="img/data-conference-three-languages.png" alt="글쓰기 패러다임" width="100%" /> ] .footnote[ - [데이터과학을 위한 저작도구]( - [데이터 과학을 위한 저작도구 - 심각한 현재 상황]( - [데이터 과학을 위한 저작도구 - R 유니코드, 인코딩]( ] --- ## 보고서 자동생성 .center[ <img src="fig/report-single-automation.png" alt="보고서 생성 자동화" width="60%" /> ] .footnote[ - [데이터 과학을 위한 저작도구 -보고서 자동화]( - [xwMOOC 데이터 제품 -전자우편 보고서 발송 자동화]( ] --- class: inverse, middle, center # 그리고... --- ## 엑셀에서 탈출하자 .pull-left[ <img src="fig/ds-xls-data-format-logic.png" alt="엑셀" width="100%" /> ] .pull-right[ <img src="fig/train-to-data.jpg" alt="분석행" width="100%" /> ] .footnote[ - [데이터 과학 -탈옥(jailbreakr) – 엑셀에서 탈출… 자유]( - [데이터 과학 - 위기의 스프레드쉬트]( ] --- ## 사전선거율 - 엑셀 파이터의 종말 <img src="fig/excel-fighter.png" alt="엑셀파이터" width="100%" /> .footnote[ [사전선거율 - 엑셀 파이터의 종말, 6·13 지방선거 사전투표]( ] --- ## 시계열 예측 자동화 <img src="fig/stat-time-series-workflow.png" alt="엑셀파이터" width="100%" /> .footnote[ [데이터 과학- 기초 통계: 시계열 예측 자동화]( ] --- ## 디지털 경제와 열린 적들 .center[ <img src="fig/stat-mmorpg.png" alt="작업장" width="80%" /> ] .footnote[ - [기초 통계 - 작업장 탐지]( - [기초 통계 -디지털 경제와 작업장(Gold Farming)]( ] --- ## [얼굴 분석 - Face Analysis]( .pull-left[ <img src="fig/face-analysis-app.png" alt="얼굴분석" width="65%" /> ] .pull-right[ - **클라우드 APIs** - [나이(Age): MS Face API]( - [정보과학교육연합회-R을 이용한 인공지능 튜토리얼]( - [감정분석: MS Emotion API]( - [국회의원 사진 - Computer Vision API]( ] .footnote[ [Azure Computer Vision API: Generate image captions with the Computer Vision API]( ] --- ## 데이터 과학자와 함께하는 지방선거 <img src="fig/ml-local-election.png" alt="얼굴분석" width="100%" /> .footnote[ [xwMOOC 기계학습 - 지방선거 광역단체장 지지율 예측모형]( ]