기계(Machine)라 하면 기계장치를 떠올릴 수 있지만, 영어로 머신(machine)은 인공지능을 탑재한 컴퓨터를 의미한다. 자동화 수준을 기계의 도움 없이 모든 결정과 행동을 사람이 취하는 수준부터 인간을 배제하고 기계가 모든 의사결정을 내리고 자율적으로 운전, 판결, 세금계산 등 완전한 자동화 수준으로 구분한다. [1] 이러한 자동화 수준에 차이가 생기는 근본적인 이유는 사람과 기계가 서로 잘하는 영역이 나누어져 있었기 때문이다. 단어를 찾거나 글자 수를 세는 단순하고 반복적인 작업은 컴퓨터에게는 쉬운 작업이다. 반면, 논문이나 책을 읽고 그 속에 숨겨진 맥락을 파악하는 것은 현재 기술로도 한계가 있다. 인간은 지루하고 반복된 문제를 해결하는 데 적합하지 않고, 컴퓨터도 추상적이고 일반화하는 작업에 적합하지 않았다.

생산성과 임금격차, 보울리의 법칙, 노동인력 참여율을 통해 확인되는 공통된 사항은 1980년 이후 일자리에 구조적인 변동이 생겼다는 점이다. [2] 과거 일자리와 관련하여 국가내에 정규직과 비정규직 프레임 혹은 외국인 노동자로 대표되는 국외노동자와 국내 일자리 프레임에 추가하여 사람과 기계 프레임이 추가되었다. 예를 들어, 국가의 근간을 이루는 세무업무를 살펴보자. 과거 숫자를 다룰 수 있는 소수의 사람만이 숫자의 계산을 암산에서 벗어나 주판의 도움으로 생산성을 주판을 사용하지 못한 사람과 비교하여 수십배에서 수천배의 정확도와 함께 빠른 계산을 달성하게 되었다. 이러한 주판은 중간에 기계장치 계산기(찰스 배비지)도 있었지만, 일제 전자계산기로 자리를 내어주지만 사칙연산만 이해하면 기존 주판과 비교하여 어마어마한 생산성을 향상과 정확도를 높인 것은 분명하다. 이후, 개인용 컴퓨터의 보급으로 비지칼크와 로터스 1-2-3가 그 가능성을 열었다면 마이크로소프트 엑셀 스프레드쉬트 프로그램이 세무사 업무의 생산성을 또한 엄창나게 올린 것도 사실이다. 아마도 여기까지가 세무사가 기계와 경쟁을 하지 않고 기계가 세무사의 생산성 향상에 도움을 준 것으로 볼 수 있다. 이제부터 문제가 되는 것은 PC 매거진, “The Best Tax Software for 2019”에 소개된 세금관련 프로그램이 $39 달러에 불과하다는 점이다. 1년 세무업무가 개인의 경우 4만원에 불과한데 세무사가 이런 자동화된 기계와 경쟁에서 승리할 수 있는가? 결과는 명확하다. 이제 기계와 세무사간의 일자리 경쟁이 시작된 것이다.

컴퓨터(Computer)라는 말은 라틴어 “computare”에 기원하는데 계산하고 더한다는 의미를 지니지만, 오늘날 컴퓨터는 거대한 계산기 이상으로 컴퓨터는 도서관도 될 수 있으며, 컴퓨터로 글을 작성할 수 있으며, 정보를 찾고, 음악을 연주하고, 영화를 보기도 한다. 그런데 컴퓨터는 이렇게 많은 모든 정보를 어떻게 저장할까? 믿든 믿지 않든, 컴퓨터는 단지 두 가지만을 사용한다. 영(‘0’)과 일(‘1’)이다.

미국 CMU 자넷 윙(Jeannette W. Wing) 교수는 2006년 수학적 사고(mathematical thinking)’와 ‘통계적 사고(statistical thinking)’에 이어“읽기, 쓰기, 셈하기와 더불어 컴퓨팅적 사고(Computational Thinking)이 누구나 낮춰야 하는 기본역량”이라고 강조했다. [4] 추상화(Abstraction)와 자동화(Automation)는 컴퓨팅적 사고의 핵심을 이루는 두 축이다. 추상화(Abstraction)는 문제해결을 위해 반드시 필요한 핵심요소를 파악하고, 복잡함을 단순화하는 것으로 너무 단순화된 추상화는 문제해결에 필요한 핵심정보를 담아내는데 실패했고, 그 반대의 경우는 불필요한 사족이 붙어있어 오히려 깔끔한 문제해결에 장애가 된다. 자동화는 추상화 과정에서 만들어진 알고리즘과 모델을 이용하여 컴퓨터가 이해할 수 있는 프로그래밍 언어로 표현하여 문제를 푸는 것이다.

’데이터 과학(Data Science)’은 석유 자원에 경제적 가치를 부여하는 정제 프로세스에 비유될 수 있고, 원유가 여러 단계의 공정을 거쳐 플라스틱, 섬유, 고무와 같은 상품으로 재탄생하듯이, 데이터 자원도 여러 단계를 거치면서 기존에 없던 가치를 창출한다. [5] 이를 위해서 데이터 과학을 통해 정형, 반정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하고, 데이터를 통해 실제 현상을 이해하고 분석하는데 통계학, 데이터 분석, 기계학습과 연관된 방법론을 통합적으로 사용한다.

데이터로부터 가치를 창출하는 데이터 과학 이론적 토대에 깔끔한 데이터(tidy data), 그래프 문법(grammar of graphics)을 양대 축으로 하는 tidyverse(타이디버스, 깔끔한 세상) 도구상자를 해드리 위컴이 주축이 되어 세상에 내놓았다. 엉망진창인 R 도구상자(messyverse)와 비교되기도 하지만, tidyverse를 도구상자로 보다는 유닉스 철학처럼 데이터 과학에 있어 하나의 철학적 지침으로 접근하는 것이 일반적이다. 깔끔한 R 도구상자(tidyverse)는 깔끔한(tidy) API에 다음과 같은 4가지 원칙을 제시하고 있다.

  • 기존 자료구조를 재사용: Reuse existing data structures.
  • 파이프 연산자로 간단한 함수를 조합: Compose simple functions with the pipe.
  • 함수형 프로그래밍을 적극 사용: Embrace functional programming.
  • 기계가 아닌 인간을 위한 설계: Design for humans.

기계학습(machine learning)은 패턴이 존재한다고 가정 아래, 수학적으로 기술할 수 있는 회귀모형과 달리, 수학적으로 명세를 할 수 없다는 점에서 차이를 두지만, 기계학습이나 회귀모형이나 둘다 데이터를 기반으로 한다는 공통점이 있다. 과거 대표적인 기계학습모형인 신경망(neural network) 모형은 가능성을 보였지만 컴퓨팅 자원이 뒷받침되지 못해 각광을 받지 못하다가 GPU 하드웨어에 클라우드 기술이 접목되면서 충분한 데이터만 뒷받침되면 기존 통계모형이 보여주던 성능을 거의 모든 면에서 압도하기 시작했다.

과거 사람이 소프트웨어를 사용해서 단순히 데이터를 생성하는 것을 넘어 이제는 기계가 데이터만 충분하다면 기계학습 기법으로 수작업으로 정성스럽게 제작한 소프트웨어보다 더 훌륭한 소프트웨어를 만들어내는 세상이 되었다. 이러한 기계학습 소프트웨어가 만들어 놓은 일자리를 포함한 불평등을 다시 사람이 제대로 이해하고 기계에 대한 반격을 시작하는 첫걸음이 tidyverse라고 믿어지고 있다. 사람이 만들어 내는 소프트웨어와 데이터에서 기계가 만들어내는 소프트웨어가 대세를 자리잡고 있는 지금, 이를 이해하고 다시 사람이 주도권을 잡아가는 노력이 경주되고 있다.

1. Cummings MM. Man versus machine or man+ machine? IEEE Intelligent Systems. 2014;29:62–9.

2. Mishel L, Gould E, Bivens J. Wage stagnation in nine charts. Economic Policy Institute. 2015;6:2–13.

3. Kaplan J. Humans need not apply: A guide to wealth and work in the age of artificial intelligence. Yale University Press; 2015.

4. Wing JM. Computational thinking. Communications of the ACM. 2006;49:33–5.

5. 김기범;이효정;박도휘. 기업 운영 혁신을 위한 데이터 과학: 기업의 활용 방안. 삼정KPMG 경제연구원. 2020;제121호.