2 감성분석

3 저서 핵심용어 - TF-IDF

TF-IDF(Term Frequency - Inverse Document Frequency)는 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치로 문서의 핵심어를 추출하는 용도로 사용할 수 있다. 일반이론과 노예의 길 문서가 두권의 책이라 케이즈와 하이에크를 옹호하는 책 혹은 문서를 더 확충할 경우 핵심용어를 식벽하는데 큰 도움이 될 수 있다.

# A tibble: 13,544 x 4
   book   word           n total
   <chr>  <chr>      <int> <int>
 1 케인즈 money        779 51842
 2 케인즈 rate         776 51842
 3 케인즈 employment   661 51842
 4 케인즈 investment   583 51842
 5 케인즈 capital      525 51842
 6 케인즈 marginal     410 51842
 7 케인즈 income       390 51842
 8 케인즈 cost         371 51842
 9 케인즈 demand       370 51842
10 케인즈 output       362 51842
# ... with 13,534 more rows
# A tibble: 13,544 x 6
   book     word            n      tf   idf   tf_idf
   <chr>    <chr>       <int>   <dbl> <dbl>    <dbl>
 1 케인즈   saving        184 0.00355 0.693 0.00246 
 2 하이에크 serfdom       111 0.00353 0.693 0.00244 
 3 케인즈   liquidity     132 0.00255 0.693 0.00176 
 4 하이에크 socialists     64 0.00203 0.693 0.00141 
 5 하이에크 democracy      61 0.00194 0.693 0.00134 
 6 하이에크 ideals         57 0.00181 0.693 0.00126 
 7 케인즈   prospective    85 0.00164 0.693 0.00114 
 8 케인즈   equilibrium    81 0.00156 0.693 0.00108 
 9 하이에크 tion           49 0.00156 0.693 0.00108 
10 케인즈   assets         72 0.00139 0.693 0.000963
# ... with 13,534 more rows

케이즈와 하이에크의 두 저서만을 대상으로 TF-IDF 수치가 높은 단어를 상위 15개 추출하여 막대그래프로 시각화한다.

4 단어 연관성 - ngram

단어 연관성을 살펴보기 위해서 n-gram기법을 사용한다. 단어를 2개씩 나눠서 살펴본다.

# A tibble: 97,083 x 3
   book     bigram          n
   <chr>    <chr>       <int>
 1 케인즈   of the       1515
 2 케인즈   in the       1260
 3 하이에크 of the       1137
 4 케인즈   to the        716
 5 케인즈   rate of       709
 6 케인즈   of interest   652
 7 케인즈   it is         563
 8 케인즈   that the      456
 9 케인즈   the rate      454
10 하이에크 in the        438
# ... with 97,073 more rows

불용어가 많아서 stop_words처럼 다음과 같이 bi-gram 불용어처리를 한다. 먼저 bigram을 두 단어로 쪼갠 후에 불용어가 들어간 단어를 추려낸다. 그리고 나서 다시 unite() 함수로 bigram 형태로 다시 되돌린다.

# A tibble: 25,085 x 2
   book   bigram          
   <chr>  <chr>           
 1 케인즈 john maynard    
 2 케인즈 maynard keynes  
 3 케인즈 money john      
 4 케인즈 john maynard    
 5 케인즈 maynard keynes  
 6 케인즈 keynes table    
 7 케인즈 contents preface
 8 케인즈 preface preface 
 9 케인즈 german edition  
10 케인즈 edition preface 
# ... with 25,075 more rows

bigram 을 통해 두책에서 언급된 핵심용어를 추리기 위해서 tf-idf 측도를 동원하여 상위 15개 단어를 추려서 시각화하면 두 경제학자의 확연한 시각차를 확인할 수 있다.