데이터 과학자가 다루는 프로그래밍 언어와 별개로 다루는 원천 데이터 유형은 직사각형 데이터프레임 데이터와 텍스트 데이터가 과반을 넘게 차지하고 있다. 기타 데이터에는 지리정보, 네트워크 등 데이터가 포함된다.
원천 데이터 | 응답모수 | 응답자 | 비율 |
---|---|---|---|
관계형 데이터 | 8,024 | 5,256 | 65.50 % |
텍스트 데이터 | 8,024 | 4,255 | 53.02 % |
이미지 데이터 | 8,024 | 1,456 | 18.14 % |
기타 | 8,024 | 823 | 10.25 % |
비디오 데이터 | 8,024 | 409 | 5.09 % |
관계형 데이터(Relational data)는 데이터 과학자가 주로 다루는 엑셀형태의 데이터로 데이터 과학 텍스트 데이터는 자연어 처리 - 텍스트를 참조하고, 이미지 데이터는 xwMOOC 고생대 프로젝트 -고생대 삼엽충의 전성기를 재현를 참조한다.
과거 모델링은 전문적인 훈련을 받은 전문가의 영역이었는데 오픈 소프트웨어의 출현으로 중요하기는 하지만 과거에 비해서 핵심적인 영역이라기 보다는 누구나 일정 훈련을 받게 되면 일정수준 이상의 성능을 발현할 수 있고, 오히려 Feature Engineering을 포함한 전처리 분야와 이를 해석하고 결과를 활용하는 분야가 떠오르고 있다. 자연어는 기존 관계형 데이터, 이미지, 음성과는 다른 특징을 내재하고 있다.
텍스트 데이터 분석을 위하여 문장을 단어나 토큰으로 분리합니다. 텍스트 분석의 단위는 단어, 구문, 문장, 문단, 문서가 될 수 있고, 문서나 문장을 분리된 토큰을 이용하여 tf
나 tfidf
와 같은 one hot representation과 doc2vec
과 같은 distributed representation의 벡터로 표현합니다. 연관어 분석이나 토픽 모델링(topic modeling)은 문장에서 나뉘어진 단어의 co-occurrence 정보를 이용합니다. 결국, 이들은 모두 모두 문장을 단어나 토큰으로 잘 분리되었다는 전제를 바탕으로 깔고 있습니다.
토크나이징(tokenization)은 주어진 문장을 토큰(tokens)으로 나누는 과정입니다. 품사 판별 (part of speech tagging)은 토큰을 (단어, 품사)로 정의합니다. 한국어의 품사 체계는 5언 9품사로 구성되어 있습니다. 다른 단어들은 형태가 변하지 않지만 동사, 형용사인 용언은 형태가 변하고, 이를 “용언의 활용” 이라 합니다. 이때 의미를 지니는 부분을 어근 (root), 형태가 변하는 부분을 어미(ending)이라 합니다.
(5)언 | (9) 품사 |
---|---|
체언 | 명사, 대명사, 수사 |
수식언 | 관형사, 부사 |
관계언 | 조사 |
독립언 | 감탄사 |
용언 | 동사, 형용사 |
불용어(Stop words)는 연관성이 낮은 단어들을 제외하고 텍스트를 분석하는데 사전과 같이 활용된다. 내용과 목적에 따라서 불용어는 별도로 정의하고, 불용어 처리여부 및 해당 목적에 맞는 불용어 말뭉치 데이터베이스를 구축하여 반영한다.
형태소 분석은(morphological analysis) 품사 판별과 자주 혼동되는 개념입니다. 형태소란 의미를 지니는 최소 단위로, (1) 자립형태소 / 의존형태소 로 나뉘기도 하며, (2) 실질형태소와 형식형태소로 나뉘기도 합니다. 형태소 분석은 품사 판별의 수단이 될 수 있지만 반드시 품사 판별을 위하여 형태소 분석을 해야하는 것은 아닙니다. 형태소 분석기의 목표는 단어를 형태소로 분해하는 것으로 대표적인 한국어 형태소 분석기에는 다음이 존재합니다.
자연어 처리에서 상당부분 해결한 문제는 문서 분류(classification)에 대한 부분과 NER, POS와 같은 분야를 들 수 있다. 단어주머니(Bag of Words)는 가장 단순한 자연어 처리 방법으로 시각화 방법론과 결합되어 자연어 처리를 소수 전문가 영역에서 누구나 접할 수 있는 일반적인 분석방법으로 민주화시키는데 크게 기여했다고 볼 수 있다.