언어학의 기본을 이해하는 것은 텍스트 데이터를 다루는데 큰 도움이 된다. 아래 내용은 언어학의 6개 하위 분야에 대한 개괄적인 소개를 담고 있다.
library(tidyverse)
library(knitr)
tibble::tribble(
~연구분야, ~설명,
"음성학(Phonetics)", "언어로 사람들이 사용하는 소리: Sounds that people use in language",
"음운론(Phonology)", "특정언어의 소리 체계: Systems of sounds in particular languages",
"형태론(Morphology)", "단어가 구성되는 방법: How words are formed",
"구문론(Syntax)", "문장이 단어로 구성되는 방법: How sentences are formed from words",
"의미론(Semantics)", "문장이 의미하는 뜻: What sentences mean",
"화용론(Pragmatics)", "맥락으로 언어가 사용되는 방법: How language is used in context"
) %>%
kable(col.names = c("연구분야", "강조하는 부분"),
caption = "언어학의 세부분야: 단순하고 작은 구조부터 복잡하고 넓은 구조")
연구분야 | 강조하는 부분 |
---|---|
음성학(Phonetics) | 언어로 사람들이 사용하는 소리: Sounds that people use in language |
음운론(Phonology) | 특정언어의 소리 체계: Systems of sounds in particular languages |
형태론(Morphology) | 단어가 구성되는 방법: How words are formed |
구문론(Syntax) | 문장이 단어로 구성되는 방법: How sentences are formed from words |
의미론(Semantics) | 문장이 의미하는 뜻: What sentences mean |
화용론(Pragmatics) | 맥락으로 언어가 사용되는 방법: How language is used in context |
토큰화 과정이 끝나다고 하면 그 다음으로 눈여겨볼 주제는 불용어(stopwords)다. 불용어는 의미없는 혹은 자연어 처리 업무에 기여가 작은 단어를 제거하여 유의미한 정보를 추출하는데 도움을 주는 한편, 컴퓨팅 효율을 높여 비용을 줄이는 작업으로 볼 수 있다.
따라서 stopwords
팩키지가 있고 어떻게 하면 불용어 사전을 잘 정의하고 이를 자연어 처리 업무에 적용하느냐가 중요한 점이 되지 않을까 싶다.
[1] 571
[1] 175
[1] 1298
데이터 과학자 이광춘 저작
kwangchun.lee.7@gmail.com