규제법령 데이터를 클라우드 플랫폼과 NLP기술로 열어가는 AI 미래전략

이광춘 https://www.facebook.com/groups/tidyverse/ (삼정 KPMG)https://home.kpmg/kr/ko/home.html
2020-07-20

Table of Contents


텍스트에서 데이터로

최근 한국에서 업무 자동화로 대표되는 RPA(Robotic Process Automation)를 넘어서 NLP(Natural Language Processing)으로 AI로 폭넓게 회자되던 개념이 구체화되어 실질적으로 우리곁으로 다가서고 있다. RPA는 소프트웨어 봇 또는 인공지능(AI) 워커(worker)의 개념에 기반을 두고 있으며 사용자가 GUI로 수행했던 작업을 백그라운드에서 API와 전용 스크립트 언어를 사용해서 업무를 정확하고 신속하게 자동화하고 있다. RPA가 정형화되고 검증된 업무 흐름을 로봇을 사용해서 자동화시켜 사람으로 치면 쉬지 않고 손과 발이 되어 업무를 수행했다면 이제 손과 발에 명령을 내리는 머리에 해당되는 영역을 NLP 자연어 처리 기술이 이를 빠르게 대체하고 있다.

한걸음 더 들어가면 규칙기반 “Rule Engine”은 검증이 완료되어 일상화되고 있다면 현제는 학습기반 단계에 진입하여 프로세스에 대한 자동화 범위 확대와 성과를 가시화하고 있다. 규칙 엔진(Rule Engine)은 정형데이터 및 정형화된 업무 분석을 근간으로 스크립트 언어로 빠르게 현업에 적용시킬 수 있는 업무흐름 자동화 소프트웨어를 개발할 수 있다. 반면 NLP 자연어 처리 기술은 일단 종이나 화면에 출력된 이미지 아날로그 정보로부터 디지털 정보로 변환시키는 Digitization 과정이 선행되어야 한다. 이를 위해서 다양한 이미지 전처리 작업과 컴퓨터 비젼 기술 그리고 광학문자판독 (OCR, Optical Character Recognition)이 전제되어야 한다.

현재 상황을 보면, 초고속 인터넷이 보편화되면서 상당히 많은 텍스트 데이터가 이미 Digitization되어 NLP 작업을 위한 준비가 된 반면, 아직도 많은 텍스트 데이터가 종이, 팩스, 포스터, 현수막 등에 갖혀있다. 최근 고성능 스캐너의 보급과 고화질 스마트폰 카메라를 이용한 스캐닝 작업이 일반화되고 딥러닝 기술을 접목한 OCR 엔진이 강력해지고 오픈소스 tesseract 및 클라우드 API(네이버 OCR API, 마이크로소프트 Azure API, 구글 API, AWS API 등)가 저렴하고 사용하기 쉽게 공급되어 Digitization 작업에 활력을 불어넣고 있다.

규제문서 자연어 처리

기업이 준수해야 할 법률 및 행정규제는 10년마다 30% 증가하고 있으며 최근에는 그 증가폭이 가파르게 상승하고 있으며 단순하게 문서에 담긴 최빈 단어를 보는 수준만으로 전체적인 맥락을 이해하는 것은 불가능할 정도로 복잡성도 함께 커지고 있다.

자연어처리(NLP)는 인공지능(AI) 기술의 한 축을 담당하고 있으며, 텍스트 분류, 텍스트 요약, 문서 유사성 측정, 자연어 텍스트 생성, 번역, 음성 인식 등 다양한 기술을 아우르고 있다. 자연어 처리는 계약서를 포함한 법률, 행정규제 문서 모두 다소 차이는 날 수 있지만 필요부분믕ㄹ 추려서 데이터 분석에 적합한 형태로 말뭉치(corpus) 수집 및 구축, 불용어 처리 및 토큰화로 대표되는 전처리 과정, 기계학습 모형 설계, 학습, 모형 검증을 포함한 딥러닝 모형 구축 과정, 마지막으로 딥러닝 기계학습 모형 성능 평가 후 서비스 구현 과정을 거치게 된다.

자연어 처리 기계모형이 장착된 RPA는 법률, 규제 문서 내용을 수집, 이해, 해석하여 문서에 담긴 법률, 행정 조건을 분석하여 회사 및 기관에 손실을 유발할 수 있는 불균형한 조건이 존재하는 곳을 식별하는 것은 물론이고 수정될 내용을 추천하는 유연한 기능을 전문가와 비교하여 차이가 없거나 경우에 따라서는 더 좋은 성능을 보여주기도 한다.

이를 위해서 문서 읽기가 가장 먼저 수반되고 다양한 문서를 Digitization을 통해 읽어 기계가 후속 작업이 가능한 형태로 디지털화한다. 아날로그 문서에 추출된 텍스트는 기본적인 자연어 처리 기능을 통해서도 사전에 정의된 규칙을 현재 법률 조항이나 행정규제 사항과 대조하여 규정준수 여부를 파악할 수 있다. 자연어 처리 딥러닝 모형이 장착된 경우는 한걸음 더 나아가 기관에 적용된 정책, 규정, 규칙을 활용하여 기관별로 특화된 평가기준을 바탕으로 구조화된 형태의 데이터로 만들어낸 후, 재무적 손실을 유발할 수 있는 내용도 식별하여 정량화시킬 수도 있다. 최근 개발되고 있는 AI 시스템은 문서에 담긴 규제 및 법률조건에 대한 분석에 기반하여 인지기반 의사결정도 지원하여 불균형한 조건이 존재하는 곳을 자동으로 식별하고 수정 권장사항 추천한다.

법률 준수 및 행정 규제관련 업무를 수행하는 담당자는 기계가 대신하여 법률 행정문서 조항을 분석하고 질문에 대해 즉각적인 대답을 제시함으로써 업무상 불필요한 시간소모를 줄이는 것은 물론이고, 기관에서 일상적으로 작성하는 행정 규제문서를 자동 생성, 검증함으로써 업무 정확도 향상과 효과성 측면에서도 많은 기여를 하고 있다. 특히, 단어와 구문, 토픽(topic)을 통해 추출한 정보를 네트워크 시각화 분석과 결합하여 제시할 경우 문제 상황에 대한 정확한 파악은 물론이고 집필자의 의도까지 예측하는데 도움을 주고, 법률, 판례 및 연관 행정규제를 포함한 2차 정보까지 실시간으로 제공하고 있다.

규제 데이터 자연처 처리

  1. 공정거래법 전면개편안 공청회 데이터 Digitization
  2. 텍스트 마이닝: 시각화

행정규제 자동생성

최근 OpenAI에서 GPT-3를 공개하여 이전 텍스트를 기계가 자동 생성하는 것을 넘어 다양한 응용사례를 보여주고 있다. OpenAI API 데모를 통해 기존 보여줬던 텍스트 생성, 질의응답, 번역 등을 확인할 수 있었지만 이제는 코드 작성하는게 가능하게 되었다.

데이터 과학자 양성

21세기 원유, 원자재인 데이터를 산업화시키는데 기존 제조업에서 필요로하는 역량과 다른 역량을 갖춘 기술과 경험을 보유한 인력을 양성시켜야 된다. 늦었지만 다행히도 컴퓨팅 사고력을 갖춘 인력을 양성할 수 있도록 초등학교부터 체계적인 코딩 교육이 실시되고 있고 실제 산업체와 밀접한 관계를 갖는 대학이상 고등교육에는 다양한 교육이 실시되고 있지만, 교육과정 설계부터 많은 문제점을 안고 있다. 하지만, 소프트웨어/데이터 카펜트리를 비롯하여 무료로 공개된 다양한 데이터 사이언스 교재와 커뮤니티, 그리고 이를 연결하는 미트업을 통해 부족하지만 이제 걸음마를 떼고 있다.

컴퓨팅 사고력

카네기멜론 대학 쟈넷 윙(Wing) 교수가 이론적 사고(Theoretical Thinking), 실험적 사고(Experimental Thinking)와 더불어 컴퓨팅 사고(Computational Thinking)가 향후 인간의 사고 체제를 지배하는 중추적인 역할을 할 것이라고 주장했다. 산업혁명 이후로 산업, 즉 공장에서 필요한 인력을 육성하고 공급하기 위해서 수학과 공학을 초중등 과정에서 집중적으로 교육하였으며 이러한 전통이 지금까지 이어져 국내 및 전세계 누구나 이론적 사고체계는 익숙하고 친숙하다. 통계가 근간을 이루는 실험적 사고는 스몰 데이터(Small Data)를 일부 초중등 과정에서 접목하고 있지만, 학교를 졸업하고 현실에서 많이 접하게 되고 필수적인 것임에도 통계에 대한 충분한 교육 및 훈련을 받지 못하고 사회에 진출하고 있는 것도 사실이다. 이러는 와중에 빅데이터(Big Data)가 10년도 되지 않는 짧은 시간에 성급 우리곁에 다가왔고, 추상화(Abstraction)와 자동화(Automation)가 근간을 이루는 컴퓨터적 사고도 새로운 사고체계로 함께 받아들일 시점이 되었다.

컴퓨팅 사고 체계가 갖는 산업적인 영향력과 범위가 매우 커서, 미국, 영국, 이스라엘, 일본을 포함한 선진국 뿐만 아니라 중국, 인도, 에스토니아 등 많은 나라들이 컴퓨터적 사고 체계를 갖춘 인력 확보가 미래 국가 경쟁력과 밀접한 연관이 있다고 내다보고 집중적으로 인력양성에 나서고 있다. 거시적인 측면 뿐만 아니라, 개인적인 측면에서도 컴퓨터적 사고와 통계적 사고를 갖춘 사람과 그렇지 못한 사람과의 차이는 산업경제 체제에서 빈부격차보다 더 큰 정보 불평등(Digital Divide)을 디지털 경제 시대에 야기할 것으로 예측되고 있으며, 변화된 환경에 준비되고 잘 적응한 사람은 과거보다 훨씬 더 큰 혜택과 권한을 갖을 것이다.

소프트웨어 카펜트리

과학기술 연구자들이 느끼는 대부분의 고통은 체계적으로 소프트웨어를 어떻게 개발하는지, 만약 프로그램이 잘 동작한다면 작업결과를 전자우편을 통해서 전달하는 것을 제외하고 어떻게 동료와 공유하는지, 혹은 지금까지 연구한 것을 어떻게 기록하는지 잘 모른다는 사실에 기인하다.

소프트웨어 카펜트리(Software Carpentry)는 그렉 윌슨(Greg Wilson) 박사 주도로 1998년부터 시작된 무료 소프트웨어 교육 프로그램이다. 특히, 가설검증이나 모형 개발을 위한 대부분의 통계 프로젝트에서 데이터 처리 작업이 대략 10%정도 크지 않은 부분을 차지하지만 80% 이상 시간이 엑셀, SQL, 유닉스 쉘 스크립트 작성 등으로 쓰여지고 있는 것이 사실이다. 과학과 공학 연구자들이 대부분의 시간을 컴퓨터로 시뮬레이션하고 데이터를 분석하며 귀중한 시간을 보내지만 제대로 된 소프트웨어 교육을 받은 사람도 드물고, 가르칠 수 있는 사람도 부족한 현실에서 소프트웨어 카펜트리 프로젝트는 과학 및 기술 종사자가 본연의 업무에 집중하는데 큰 도움을 주고 있다.

소프트웨어 카펜트리에서는 유닉스 쉘을 이용한 작업자동화, 버젼관리와 협업을 위한 Git/GitHub, 추상화 모듈방식 프로그래밍으로 파이썬과 R, 데이터 관리를 위한 SQL을 핵심 교육내용으로 이틀동안 실습 중심으로 워크샵으로 진행한다. ’12년부터 전세계적으로 수백번의 워크샵을 통해서 34,000명이 참석하여 활발하게 진행되고 있으며, 한국에서도 ’15년 한국전파진흥협회를 시작으로 연세대, 서강대, 한림대에서 매년 진행되면서 보조를 맞춰가고 있다.

데이터 사이언스 교육

데이터 사이언스라는 용어가 본격적으로 회자되기 시작한 것은 10년도 되지 않는 기간이지만, 21세기 가장 섹시한 직업이라고 소개되면부터 본격적으로 일반인들이 관심을 갖기 시작했고, 이미 미국을 비롯한 선진국에서는 데이터 사이언스 커리큘럼에 대한 합의가 이뤄지고 있다. 한국에서도 19년 봄학기 연세대 데이터 사이언스 입문 과목과 가을학기 데이터 사이언스를 위한 소프트웨어 공학 과목을 통해 교육내용을 투명하게 인터넷에 공개할 뿐만 아니라 GitHub에 이를 연결시켜 공동저작의 형태로 발전시켜 나가고 있다.