데이터 과학 (Data Science) - 3월16일
Overview
Teaching: 180 min
Exercises: 0 minQuestions
데이터 과학이란 무언인가?
왜 엑셀 해방운동을 펼치는가?
왜 GUI는 데이터 과학의 미래가 될 수 없는가?
데이터 과학 블로그를 만들기 정말 어렵습니까?
Objectives
데이터 과학을 이해한다.
엑셀(스프레드쉬트)의 장단점을 살펴본다.
CLI와 GUI 활용분야를 파악한다.
개인 블로그를 구축한다.
왜 데이터 과학일까?
과학은 다단계 과정이다: 실험을 설계하고 데이터를 수집하게 되면, 실제로 재미난 일이 시작된다. 이번 학습을 통해서 데이터 과학 양대 언어 중 하나인 R과 통합개발환경(IDE) RStudio를 사용해서 이런 과정을 시작하는 방법을 학습할 것이다. 원본 데이터(raw data)로 시작해서 탐색적 데이터 분석을 수행하고 분석결과를 시각화하는 방법을 학습할 것이다. 세월에 따른 국가별 인구 정보를 담고 있는 gapminder.org로부터 나온 데이터셋을 비롯하여 다양한 저장소에서 데이터를 추출하여 데이터를 이해하고, 탐색하고, 추론하고, 모형형화하고, 커뮤니케이션 및 제품과 서비스 개발하는 전체 과정을 Hands-on으로 실습하여 체화해 나간다.
데이터 과학(Data Science)
빅데이터를 넘은 데이터 과학 Tidyverse로 향하다
- 데이터 사이언스
- 데이터(Data)
- 사이언스(Science)
- Software Product Line Engineering
- Software
- Product
- Product Line
- Engineering
엑셀 해방운동
- 과학(Science)은 재현성(Reproducibility)이 전부다.
- (칼 포퍼(Karl Popper), 1959) “반복 가능한 실험으로서 특정한 사건이 규칙과 조절에 부합하게 반복될 때에만, 원칙적으로 우리의 관찰은 누구에게서든지 검증될 수 있다… 이러한 반복을 통해서만 우리는 “우리가 단지 고립된 ‘우연의 일치’ 를 다루고 있는 것이 아니며, 그것의 규칙성과 재현 가능성으로 인해, 간주관적으로 검증 가능한 것을 다루고 있다” 고 스스로 확신할 수 있는 것이다.” (Only when certain events recur in accordance with rules or regularities, as in the case of repeatable experiments, can our observations be tested - in principle - by anyone… Only by such repetition can we convince ourselves that we are not dealing with a mere isolated ‘coincidence,’ but with events which, on account of their regularity and reproducibility, are in principle inter-subjectively testable.)
- (존 터키(John Tukey), 1969) “확신은 반복을 통해서 만들어진다. 이 명제를 회피하려는 그 어떠한 시도도 성공할 수 없으며, 오히려 파괴적이다.” (Confirmation comes from repetition. Any attempt to avoid this statement leads to failure and more probably to destruction.)
-
(게리 킹(Gary King), 2011)”과학이라는 활동이 따로 있고, 재현이라는 활동이 따로 있는 것이 아니다.” (It’s not that there’s an activity called ‘science’ and there’s a separate activity called ‘replication.’)’ 출처: 나무위키 - “재현성”
- 소프트웨어 카펜트리
- 위기의 스프레드쉬트
- 탈옥(jailbreakr) – 엑셀에서 탈출… 자유
Hadley Wickham → 코딩 1
R과 RStudio 소개
재현가능한 과학적 분석을 위한 R - “R과 RStudio 소개”
데이터 과학 블로그(blog)
Key Points
데이터 과학을 이해한다.
스프레드쉬트의 한계를 명확히 한다.
데이터 과학의 현재 위치를 살펴본다.
개인 데이터 과학 블로그를 생성한다.