1 트윗 데이터셋 1

tidytextcaret을 활용하여 자연어 텍스트 분류기를 제작하여 본다. 이를 위해서 Disasters on Social Media에 올라온 데이터를 바탕으로 예측모형 개발을 시작한다. 더불어 figure eight 웹사이트에 흥미로운 데이터셋도 많이 올라와 있다.

1.1 데이터 사전

관련 데이터를 재난(disaster)와 관련이 있는지 없는지 분류하기 위해서 예측변수와 텍스트에 대한 전처리 작업을 수행한다.

# A tibble: 3 x 2
  choose_one       n
  <chr>        <int>
1 Can't Decide    16
2 Not Relevant  6187
3 Relevant      4673
# A tibble: 2 x 3
  disaster     n  pcnt
  <lgl>    <int> <dbl>
1 FALSE     6187 0.570
2 TRUE      4673 0.430

3 caret 예측모형

caret 팩키지를 활용하여 훈련/시험 데이터로 분할시키고 나서 설명변수와 예측변수로 나누는 작업을 수행하고 3가지 모형 아키텍처에 적합시켜 정확도를 기준으로 가장 성능이 좋은 예측모형을 선정한다.

Growing trees.. Progress: 51%. Estimated remaining time: 30 seconds.
65.87 sec elapsed