데이터 제품
데이터 저널리즘 - Andrew Flowers
데이터 저널리즘 1
데이터 저널리즘의 훌륭한 이야기를 만들어내는 방식을 살펴보고, Andrew Flowers의 “538” 에서 직접 경험한 데이터 저널리즘 이야기 창출 방식을 살펴보자.
Principles of good data journalism are principles of good data storytelling.
데이터 저널리즘(Data Journalism)은 마감시한이 있는 경험적 사회과학이다.
- 스토리가 이끌어 나가고 데이터가 받혀준다.
- 엄격하지만 해석가능한 방법론을 사용한다.
- 정확성이 생명이고, 빠르고, 투명성이 담보되어야 한다.
R을 사용하는 이유
R을 데이터 저널리즘에서 사용하는 이유가 다수 있지만 무엇보다 신속히 공유가능한 데이터 분석을 위한 최선의 도구다.
- 오픈 소스 소프트웨어: 투명성, GitHub
ggplot2
: 다양한 테마(Theme), 기회한 그래프도 가능- 데이터 다루기(Data wrangling): 깔끔하지 않은 데이터를 빠르게 잘 처리함.
- 협업: RStudio, Git, GitHub 통합
- 인터랙티브: Shiny
선거인단 538은 네이트 실버가 오바마 대통령이 힐러리를 누루고 승리할 것이라며 유명세를 탔다. FiveThirtyEight Andrew Flowers 기자는 “538”에서 기자 생활을 하면 채득한 경험을 RStudio 주관 rstudio::conf 2007에서 “Finding and Telling Stories with R” 제목으로 흥미로운 데이터 저널리즘 경험을 공유했다.
- 신선함(Novelty)
- 이상점(Outlier)
- 전형(Archetype)
- 추세(Trend)
- 생각 · 믿음이 틀렸음을 증명(debunk)
- 예측(Forecast)
신선함(Novelty)
우버라는 공유경제(?)를 대표하는 운송수단이 생성됨으로써 기존 전통적인 택시같은 운송수단과 경쟁에 따른 신선한 정보를 제공받을 수도 있다.
- Uber Is Serving New York’s Outer Boroughs More Than Taxis Are
- Public Transit Should Be Uber’s New Best Friend
- Uber Is Taking Millions Of Manhattan Rides Away From Taxis
- Is Uber Making NYC Rush-Hour Traffic Worse?
구분 | 상세 설명 |
---|---|
위험성 | 시시함(Triviality) |
전략 | 단순 요약(Simple Summary) |
질문 | 데이터가 독자에게도 유의미할까? |
이상점(Outlier)
축구의 메시와 미국 NBA의 Curry는 어떻게 보면 불가능에 가까운 능력을 소유하고 있다. 이것을 어떤 면에서 긍정적인 스타, 혹은 영웅으로 볼 수 있는데 통계적으로 이상점 … 영향력있는 젊고 어린 세대들이 닮아가야하는 도전과 꿈으로 볼 수도 있다.
구분 | 상세 설명 |
---|---|
위험성 | 허위 결과(Spurious Result) |
전략 | 인물(Characters) |
질문 | 실제로 그렇게 차이가 나거나 다른가? |
전형(Archetype)
- Surviving Suicide In Wyoming
- The Poorest Corner Of Town
- Dear Mona, What’s The Most Common Name In America?
구분 | 상세 설명 |
---|---|
위험성 | 과다 간략화(Oversimplification) |
전략 | 모형(Modeling) |
질문 | 어떤 변수를 빼먹었는가? |
추세(Trend)
- The Rise Of Terrorism Inspired By Religion In France
- The Dallas Shooting Was Among The Deadliest For Police In U.S. History
- The National Parks Have Never Been More Popular But you can still avoid a crowd if you head for the Arctic Circle.
구분 | 상세 설명 |
---|---|
위험성 | 분산(Variance) |
전략 | 보수적 접근(Be conservative) |
질문 | 신호냐? 아니면 잡음이냐? |
생각 · 믿음이 틀렸음을 증명(debunk)
- The Dollar-And-Cents Case Against Hollywood’s Exclusion of Women
- You Can’t Trust What You Read About Nutrition. We found a link between cabbage and innie bellybuttons, but that doesn’t mean it’s real.
구분 | 상세 설명 |
---|---|
위험성 | 확증편향(Confirmation bias) |
전략 | 공개방식으로 잘못됨 증명(Showcase failures) |
질문 | 어느 정도 생각 · 믿음이 틀렸음을 증명하고자 하는가? |
예측(Forecast)
구분 | 상세 설명 |
---|---|
위험성 | 과대적합(Overfitting) |
전략 | 모의실험과 시나리오(Simulations and scenarios) |
질문 | 모형에 적절히 불확실성이 담겨져 있는가? |
데이터 저널리즘 요약
전개할 가치가 있는 데이터 이야기는 신선함, 이상점, 전형, 추세, 잘못알고 있음을 증명, 예측하는 방식이 있는데 곳곳에 도사리는 위험은 시시함, 허위 결과, 과다한 단순화, 확증편향, 과대적합이 있다.
데이터 이야기 전개 | 도사리고 있는 위험 |
---|---|
신선함(Novelty) | 시시함(Triviality) |
이상점(Outlier) | 허위 결과(Spurious Result) |
전형(Archetype) | 과다한 단순화(Oversimplification) |
추세(Trend) | 분산(Variance) |
생각 · 믿음이 틀렸음을 증명(debunk) | 확증편향(Confirmation bias) |
예측(Forecast) | 과대적합(Overfitting) |