class: title-slide, left, bottom # 시민 데이터 과학 (통계/인공지능) ---- ## **공공데이터, 오픈 통계 패키지, 인공지능** ### 이광춘(AIS) / 유충현(한국 R 사용자회) ### 2022-08-30 --- name: daejeon-sponsor # 후원 > 이 프로그램은 과학기술진흥기금 및 복권기금의 재원으로 운영되고,과학기술정보통신부와 한국과학창의재단의 지원을 받아 수행된 성과물로 우리나라의 과학기술 발전과 사회적 가치 증진에 기여하고 있습니다. > R Consortium과 한밭대학교 창업경영학과에서 장소를 지원해 주셨으며, 과학기술정보통신부, 한국과학창의재단, 대전광역시, 대전관광공사, **대전과학문화거점센터** 지원해 주셨습니다. | | | | | |:----------------:|:------------------:|:----------------:|:----------------:| | ![](fig/R_Consortium-logo-vertical-color.png) | ![](fig/logo-science-ict.png) | ![](fig/logo-kofac.jpg) | ![](fig/daejeon-tour-logo.jpg) | | ![](fig/logo-daejeon-city.jpg) | ![](fig/hanbat.jpg) | ![](fig/skku_s.png) | | --- class: inverse, middle name: daejeon-public-data-toc # 발표 개요 ---- .pull-left[ 디지털 전환이 급속도로 진행됨에 따라 데이터를 수집하고 처리할 수 없을 정도로 **.warmyellow[데이터가 폭증]**하고 있다. 무어의 법칙에 따라 컴퓨터 하드웨어와 네트워크 분야에서 눈부신 발전을 거듭하고 있고, 소프트웨어 분야도 오픈소스 문화가 정착됨에 따라 빅데이터 문제에 해법을 제시하고 있다. 하지만, 데이터를 통해 가치를 창출하는 **.warmyellow[시민 데이터 과학자]**가 병목의 중심으로 부각되고 있다. 공공 지역정보 데이터 수집과 분석 전략과 **.warmyellow[오픈 통계 패키지]**를 살펴보고, 시민이 주도가 되어 직접 인공지능 앱도 함께 개발하는 시간을 갖고자 한다. ] .pull-right[ .left[ 1\. **[.warmyellow[대한민국 공공데이터]](#daejeon-public-data-toc)** 2\. [통계가 기여한 역사](#daejeon-history-toc) 3\. [오픈 통계 패키지 - BitStat](#daejeon-bitstat-toc) 4\. [인공지능 앱 개발](#daejeon-dl-toc) ] ] <!--end of right-column--> <!-------------------------- 1. 대한민국 공공데이터 -----------------------------------------> --- name: asia-public-data # 공공데이터 포털
.footnote[ - [김학래, "2022 데이터 인사이트 세미나", 중앙대학교 HIKE 연구실](https://forum.datahub.kr/t/topic/128) ] --- name: asia-public-data-type # 공공데이터 자료 제공 형식
.footnote[ - [김학래, "2022 데이터 인사이트 세미나", 중앙대학교 HIKE 연구실](https://forum.datahub.kr/t/topic/128) ] --- name: asia-public-data-type # 공공데이터 정해진 미래(?) <br> .center[ ![](fig/hike-data-insight.jpg) ] .footnote[ - [김학래, "2022 데이터 인사이트 세미나", 중앙대학교 HIKE 연구실](https://forum.datahub.kr/t/topic/128) ] <!-------------------------- 2. 역사적인 통계학 기여 -----------------------------------> --- class: inverse, middle name: daejeon-history-toc # 발표 개요 ---- .pull-left[ 디지털 전환이 급속도로 진행됨에 따라 데이터를 수집하고 처리할 수 없을 정도로 **.warmyellow[데이터가 폭증]**하고 있다. 무어의 법칙에 따라 컴퓨터 하드웨어와 네트워크 분야에서 눈부신 발전을 거듭하고 있고, 소프트웨어 분야도 오픈소스 문화가 정착됨에 따라 빅데이터 문제에 해법을 제시하고 있다. 하지만, 데이터를 통해 가치를 창출하는 **.warmyellow[시민 데이터 과학자]**가 병목의 중심으로 부각되고 있다. 공공 지역정보 데이터 수집과 분석 전략과 **.warmyellow[오픈 통계 패키지]**를 살펴보고, 시민이 주도가 되어 직접 인공지능 앱도 함께 개발하는 시간을 갖고자 한다. ] .pull-right[ .left[ 1\. [대한민국 공공데이터](#daejeon-public-data-toc) 2\. **[.warmyellow[통계가 기여한 역사]](#daejeon-history-toc)** 3\. [오픈 통계 패키지 - BitStat](#daejeon-bitstat-toc) 4\. [인공지능 앱 개발](#daejeon-dl-toc) ] ] <!--end of right-column--> --- name: student-cholera # 1854년 런던 코로나19 .panelset[ .panel[.panel-name[팬데믹] .center[ <img src="fig/1024px-Punch-A_Court_for_King_Cholera.png" alt="팬데믹" width="60%" /> ] ] .panel[.panel-name[데이터-1] .center[ <img src="fig/snow-cholera-map.jpg" alt="존 스노우 콜레라 지도" width="60%" /> ] ] .panel[.panel-name[데이터-2] .center[
] ] .panel[.panel-name[탐정] .center[ <img src="fig/Pump_Handle_-_John_Snow_.jpg" width = "37%" /> ] ] .panel[.panel-name[시각화(1854)] .center[ <img src="daejeon_files/figure-html/london-map-1.png" style="display: block; margin: auto;" /> ] ] .panel[.panel-name[시각화(2022)] .center[ <img src="daejeon_files/figure-html/john-snow-hist-data-now-1.png" width="100%" style="display: block; margin: auto;" /> ] ] .panel[.panel-name[메타버스] .center[ <iframe width="560" height="315" src="https://www.youtube.com/embed/B_UsX5vfPJU" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> ] ] ] .footnote[ - [1854 Broad Street cholera outbreak](https://en.wikipedia.org/wiki/1854_Broad_Street_cholera_outbreak) ] --- name: student-handwashing # 손씻기 역사 .panelset[ .panel[.panel-name[출생사망] .center[ <img src="fig/hand-washing.jpeg" alt="통계" width="90%" /> ] ] .panel[.panel-name[데이터] .pull-left[ **연도별**
] .pull-right[ **월별**
] ] .panel[.panel-name[병원별 비교] <img src="daejeon_files/figure-html/data-science-hand-washing-viz-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[시간별 비교] <img src="daejeon_files/figure-html/data-science-hand-washing-before-after-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[사망율 분포] <img src="daejeon_files/figure-html/handwashing-rate-1.png" style="display: block; margin: auto;" /> ] .panel[.panel-name[통계검정] <br> <br> | statistic| p.value| parameter| conf.low| conf.high|method |alternative | |---------:|-------:|---------:|----------:|----------:|:-----------------------|:-----------| | -9.610071| 0| 92.43544| -0.1013066| -0.0666066|Welch Two Sample t-test |two.sided | ] ] .footnote[ - [이광춘, "손씻기 그리고 통계 - 제멜바이스"](http://aispiration.com/statistics/stat-hand-washing.html) ] --- name: student-normal # 정규분포 .panelset[ .panel[.panel-name[골턴 보드] .center[ <img src="fig/galton-board.png" alt="프랜시스 골턴" width="30%" /> ] ] .panel[.panel-name[동영상] <br> .center[ <iframe width="560" height="315" src="https://www.youtube.com/embed/EvHiee7gs9Y" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> ] ] .panel[.panel-name[모의실험] <br> .center[ <iframe width="560" height="315" src="fig/yihui-animation.mp4" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen data-external="1"></iframe> ] ] .panel[.panel-name[실제사례 - 신장] .center[ <img src="fig/육군_신장.png" alt="프랜시스 골턴" width="80%" /> ] ] .panel[.panel-name[미국 대학생 신장] <br> .center[ <img src="fig/normal-in-action.png" alt="실제 정규분포" width="100%" /> ] ] ] .footnote[ - [육군 신체측정정보 : 육군 신체측정 데이터(수시 업데이터)](https://opendata.mnd.go.kr/openinf/sheetview2.jsp?infId=OA-9425) ] --- name: student-mirad # 나폴레옹 러시아 침공 .panelset[ .panel[.panel-name[나폴레옹] <br> .center[ <img src="fig/about_napoleon.png" alt="나폴레옹 러시아 침공" width="100%" /> ] ] .panel[.panel-name[미나르 지도] <br> .center[ <img src="fig/Minard.png" alt="나폴레옹 러시아 침공" width="100%" /> ] ] .panel[.panel-name[실제 침공] <br> .center[ <img src="fig/minard-actual-map.png" alt="나폴레옹 러시아 침공 실제지도" width="100%" /> ] ] .panel[.panel-name[데이터] .pull-left[ **생존병사 수**
] .pull-right[ **후퇴 기온**
] ] .panel[.panel-name[시각화] .center[ <img src="fig/나폴레옹_러시아.png" alt="나폴레옹 러시아 침공" width="80%" /> ] ] ] .footnote[ [Re-Visions of Minard](https://www.datavis.ca/gallery/re-minard.php) ] --- name: student-nightingale # 나이팅게일 - 백의천사 .panelset[ .panel[.panel-name[나이팅게일] <br> .center[ <img src="fig/nightingale-overview.png" alt="나이팅게일" width="90%" /> ] ] .panel[.panel-name[크림전쟁] <br> .center[ <img src="fig/nightingale-war.png" alt="나이팅게일" width="100%" /> ] ] .panel[.panel-name[데이터]
] .panel[.panel-name[시각화] .center[ <img src="fig/나이팅게일.png" alt="나이팅게일 크림전쟁" width="90%" /> ] ] .footnote[ - [위키백과, "플로렌스 나이팅게일"](https://ko.wikipedia.org/wiki/%ED%94%8C%EB%A1%9C%EB%A0%8C%EC%8A%A4_%EB%82%98%EC%9D%B4%ED%8C%85%EA%B2%8C%EC%9D%BC) - [위키백과, "크림전쟁"](https://ko.wikipedia.org/wiki/%ED%81%AC%EB%A6%BC_%EC%A0%84%EC%9F%81) ] ] --- name: student-aircraft # 폭격 비행기 .panelset[ .panel[.panel-name[세계대전 - 유럽] .center[ <img src="fig/world_war_europe.gif" alt="제2차 세계 대전 - 유럽" width="70%" /> ] ] .panel[.panel-name[세계대전 - 태평양] .center[ <img src="fig/world_war_pacific.gif" alt="제2차 세계 대전 - 태평양" width="70%" /> ] ] .panel[.panel-name[대공포] <br> .center[ <iframe width="560" height="315" src="https://www.youtube.com/embed/48zE-hRAYEA" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> ] ] .panel[.panel-name[폭격기 데이터] <br> .center[ <img src="fig/Survivorship-bias.png" alt="생존자 편향의 오류" width="70%" /> ] ] .panel[.panel-name[고민] <br> .center[ <img src="fig/hum_meme.jpg" alt="짤" width="50%" /> ] ] .panel[.panel-name[업그레이드] <br> .center[ <img src="fig/survivorship_bias_plane.png" alt="해법" width="90%" /> ] ] ] <!-------------------------- 3. BitStat 오픈 통계 패키지 -----------------------------------> --- class: inverse, middle name: daejeon-bitstat-toc # 발표 개요 ---- .pull-left[ 디지털 전환이 급속도로 진행됨에 따라 데이터를 수집하고 처리할 수 없을 정도로 **.warmyellow[데이터가 폭증]**하고 있다. 무어의 법칙에 따라 컴퓨터 하드웨어와 네트워크 분야에서 눈부신 발전을 거듭하고 있고, 소프트웨어 분야도 오픈소스 문화가 정착됨에 따라 빅데이터 문제에 해법을 제시하고 있다. 하지만, 데이터를 통해 가치를 창출하는 **.warmyellow[시민 데이터 과학자]**가 병목의 중심으로 부각되고 있다. 공공 지역정보 데이터 수집과 분석 전략과 **.warmyellow[오픈 통계 패키지]**를 살펴보고, 시민이 주도가 되어 직접 인공지능 앱도 함께 개발하는 시간을 갖고자 한다. ] .pull-right[ .left[ 1\. [대한민국 공공데이터](#daejeon-public-data-toc) 2\. [통계가 기여한 역사](#daejeon-history-toc) 3\. **[.warmyellow[오픈 통계 패키지 - BitStat]](#daejeon-bitstat-toc)** 4\. [인공지능 앱 개발](#daejeon-dl-toc) ] ] <!--end of right-column--> --- name: bitstat-why # 디지털 불평등 <br> .center[ <img src="fig/bitstat/inequality.jpg" /> ] --- name: bitstat-pkg # 국내외 통계패키지 .center[ <img src="fig/bitstat/statistics-pkg.jpg" width="100%"> ] .footnote[ - [한국 통계 팩키지](https://r2bit.com/onboard/tong.html) ] --- name: bitstat-market # 시장상황과 관련 제품 <br> - 국내 기술 동향 및 수준 - 한국R사용자회 정보통신산업진흥원 오픈업 오픈통계 패키지 컨트리뷰톤 커뮤니티 개발 - 통계청/통계교육원 통그라미 개발운영 - 서울대 2015년 SRC-STAT 통계패키지 개발 - 가톨릭의대 문건웅 교수 WEB-R 웹기반 통계 패키지를 의학분야 한정하여 개발운영 - 국외 기술 동향 및 수준 - SPSS 개발자 출신 스타트업 BlueSky Statistics - 기계학습 특화 R Rattle 통계패키지, ‘05년 개발된 R GUI 통계분석 R Commander - 기계학습 특화 머신러닝 플랫폼 DataRobot, Java 기반 머신러닝/AI 플랫폼 Driverless AI .center[ <img src="fig/bitstat/market-size.jpg" /> ] .footnote[ - IDC, "Revenue from big data and business analytics worldwide from 2015 to 2022", 2021년 9월. - NICE디앤비, “데이터솔류션(263800) 기술분석보고서”, 한국IR협의회, 2020년 8월. ] --- name: bitstat-architecture # 시스템 아키텍쳐 <br> .center[ <img src="fig/bitstat/development-architecture.png" /> ] --- name: bitstat-demo-eda # 데모 - 탐색적 데이터 분석 <br> .center[ <img src="fig/bitstat/openStat_quick.gif" /> ] .footnote[ - 한국 R 사용자회(Tidyverse Korea) - 컨트리뷰톤 2021년 Open UP 오픈 프런티어 "마스터 프런티어" 프로젝트 ] <!-------------------------- 4. 딥러닝 앱개발 -----------------------------------> --- class: inverse, middle name: daejeon-dl-toc # 발표 개요 ---- .pull-left[ 디지털 전환이 급속도로 진행됨에 따라 데이터를 수집하고 처리할 수 없을 정도로 **.warmyellow[데이터가 폭증]**하고 있다. 무어의 법칙에 따라 컴퓨터 하드웨어와 네트워크 분야에서 눈부신 발전을 거듭하고 있고, 소프트웨어 분야도 오픈소스 문화가 정착됨에 따라 빅데이터 문제에 해법을 제시하고 있다. 하지만, 데이터를 통해 가치를 창출하는 **.warmyellow[시민 데이터 과학자]**가 병목의 중심으로 부각되고 있다. 공공 지역정보 데이터 수집과 분석 전략과 **.warmyellow[오픈 통계 패키지]**를 살펴보고, 시민이 주도가 되어 직접 인공지능 앱도 함께 개발하는 시간을 갖고자 한다. ] .pull-right[ .left[ 1\. [대한민국 공공데이터](#daejeon-public-data-toc) 2\. [통계가 기여한 역사](#daejeon-history-toc) 3\. [오픈 통계 패키지 - BitStat](#daejeon-bitstat-toc) 4\. **[.warmyellow[인공지능 앱 개발]](#daejeon-dl-toc)** ] ] <!--end of right-column--> --- name: automation-paradox # 모라벡의 역설(Moravec’s paradox) <br> .center[ <img src="fig/moravec-paradox.png" width = "87%" /> ] .footnote[ 미국 카네기 멜론 대학 (CMU) 로봇 공학자 한스 모라벡(Hans Moravec)이 1970년대에 ‘it is comparatively easy to make computers exhibit adult level performance on intelligence tests or playing checkers, and difficult or impossible to give them the skills of a one-year-old when it comes to perception and mobility’라는 표현으로 컴퓨터와 인간의 능력 차이를 역설적으로 표현하였다. ] --- name: dl-timeline # 신경망 모형 여정 <br> <br> .center[ <img src="fig/dl-timeline.png" alt="timeline" width="100%" /> ] .footnote[ Liangqu Long, Xiangming Zeng (2022), "Beginning Deep Learning with TensorFlow: Work with Keras, MNIST Data Sets, and Advanced Neural Networks", Apress ] --- name: dl-applicatin # 딥러닝 활용사례 .panelset[ .panel[.panel-name[이미지 데이터] .center[ <img src="fig/dl-image.png" alt="이미지 데이터" width="100%" /> ] ] .panel[.panel-name[텍스트 데이터] .center[ <img src="fig/dl-text.png" alt="텍스트 데이터" width="100%" /> ] ] .panel[.panel-name[정형 데이터] .center[ <img src="fig/dl-csv.png" alt="정형데이터" width="100%" /> ] ] .panel[.panel-name[...] ] ] --- name: human-performance # 딥러닝 알고리즘 성능 - 이미지 <br> <br> <img src="daejeon_files/figure-html/unnamed-chunk-10-1.png" style="display: block; margin: auto;" /> .footnote[ [Image Classification on ImageNet](https://paperswithcode.com/sota/image-classification-on-imagenet) ] --- name: human-performance-nlp # 딥러닝 알고리즘 성능 - 텍스트 <br> <br> <img src="daejeon_files/figure-html/unnamed-chunk-11-1.png" style="display: block; margin: auto;" /> .footnote[ [SQuAD2.0 - The Stanford Question Answering Dataset](https://rajpurkar.github.io/SQuAD-explorer/) ] --- name: resnet-app # 인공지능 앱 제작 .center[ ![](fig/resnet-app.jpg) ] - [Shiny 웹앱 : 데이터 사이언스 언어 R - 기계 이미지 인식](https://r2bit.shinyapps.io/shiny_resnet/) - [인공지능 웹앱 개념](https://aispiration.com/united-states/00_concept.html) - [제작방법](https://aispiration.com/data-product/shiny-image-classification.html) <!-------------------------- 마무리 -----------------------------------------> <!-- ```{r child='slideshows/daejeon/daejeon-goodbye.Rmd'} --> <!-- ``` --> --- name: daejeon-goodbye class: middle, inverse .pull-left[ # **경청해 주셔서 <br>감사합니다.** <br/> ## AIS & [한국 R 사용자회](https://r2bit.com/) ] .pull-right[ .right[ <img style="border-radius: 100%;" src="fig/korea_R_logo.png" width="300px"/> ] ]