데이터 제품

공공 데이터 제품 개발

오픈데이터 계층구조 1

월드와이드웹을 만든 팀 버너스 리(Tim Berners-Lee)는 오픈 데이터를 5단계 별로 등급화했다.

등급 오픈 데이터 유형
조회, 인쇄, 저장 가능: .pdf, .hwp
★ ★ 구조화된 데이터, 상용도구 데이터: .xlsx
★ ★ ★ 자유 형식 오픈 데이터: .csv
★ ★ ★ ★ URI 부여된 데이터: 오픈 API
★ ★ ★ ★ ★ 다른 데이터와 연결: 링크드 오픈 데이터(LOD)

사람이 데이터를 소비하는 방식과 기계가 데이터를 소비하는 방식은 전혀 다르다. 단순히 조회, 인쇄, 저장이 가능한 형태의 데이터가 가장 가치가 낮은 형태의 오픈 데이터가 된다. 스프레드쉬트와 같이 구조화된 데이터는 그 다음 별점을 받는 데이터로 엑셀과 같은 형태로 배포되는 데이터다. 스프레드쉬트 형태로 구조화된 데이터를 읽고, 가공하는데 특별한 자유 혹은 상용 소프트웨어가 필요한데 이런 제약 사항을 없앤 것이 .csv 파일이다. .csv 파일은 로컬 컴퓨터에서 활용가능한 형태의 데이터로 이를 웹으로 올려 URI를 부여하여 누구나 접근할 수 있도록 만든 것이 오픈 API 형태 데이터다. 마지막으로 팀 버너스 리가 가장 큰 의미를 둔 것이 LOD(Linked Open Data)로 사일로 형태의 독립된 데이터가 아니라 경우에 따라서는 해외 데이터와도 연결되어 공개된 데이터다.

공공데이터

공공데이터는 국가의 모든 기관이 만들어 내는 자료와 이를 가공해서 생산된 정보를 지칭한다. 공공데이터를 적극 개방, 공유하고 정부부처 간에 공유되지 않는 자료와 정보를 공개함으로써 이를 활용하여 정부에 맞춤형 서비스를 제공하고 새로운 부가가치를 창출함을 목표로 하고 있다. 최근에는 뉴스타파, 중앙일보

국가 및 정부부처내 통계정보를 공유하고 교환하는데 사용되는 표준은 SDMX 2를 활용한다.

전달 아키텍쳐

정보를 전달하기 위해서 국제표준화기구(OSI)에서 제시한 OSI 모형 (Open Systems Interconnection Reference Model)3을 사용하고 이를 기반으로 응용 프로그램을 웹서비스와 데이터 형식에 과거 SOAP와 XML 조합을 많이 사용했다면, 최근에는 RESTful API와 JSON 조합을 주로 사용한다.

공공데이터 추출

공공데이터는 다양한 제공방식으로 제공되지만 크게 파일 형식으로 다운로드 받는 방식과 웹서비스 형식으로 전달되는 두가지 방식이 존재한다.


  1. 함형건, “데이터 분석과 저널리즘 빅데이터 시대, 저널리스트를 위한 데이터 분석 기법”, 컴원미디어, 2015년 01월 30일 출간↩︎

  2. Statistical Data and Metadata eXchange↩︎

  3. OSI 모형↩︎