1 케인즈 vs 하이에크

경제학의 두거인 케인즈와 하이에크 대표 저서 두권을 추출하여 자연어 처리 분석을 통해서 인사이트를 얻어보자.

2 데이터 1

케인즈는 “고용·이자 및 화폐의 일반 이론(The General Theory of Employment, Interest and Money)”, 흔히 “일반이론”이라고 불리는 책을 발표하였는데, 기존의 신고전파 경제학자들의 시장주의를 비판함과 동시에 유효수요이론을 제시하였고, 하이에크는 개인주의와 고전적 자유주의를 지지하는 사람들 사이에서 널리 알려진 “노예의 길(The Road to Serfdom)”을 발표하였다. 구글을 통하면 원서를 어렵지 않게 PDF 파일로 다운로드 받을 수 있다.

케인즈 하이에크 책

2.1 케인즈 vs 하이에크 책정보

pdftools 팩키지를 사용해서 구글을 통해 입수한 .pdf 파일에 대한 정보를 가져와서 비교한다. 두책 모두 거의 비슷한 페이지수를 가지고 있다. 일반이론 263쪽, 노예의 길 266쪽 그리고 나머지 pdf_info를 통해 가져온 메타정보는 그다지 유용한 것이 없어 보인다.

# A tibble: 2 x 4
  book     pages version 생성일             
  <chr>    <int> <chr>   <dttm>             
1 케인즈     263 1.4     2004-10-06 04:51:03
2 하이에크   266 1.7     2010-08-25 04:47:49

2.2 케인즈 vs 하이에크 텍스트

pdf_text 함수로 .pdf 파일을 R에서 처리 가능한 문자열을 뽑아내서 객체에 담아낸다.

케인즈 일반이론

하이에크 노예의 길

2.3 전체 단어수

페이지수는 케인즈 저서의 경우 263, 하이에크 저서의 경우 266으로 차이가 없지만, 단어갯수에 있어서는 전처리 전에 다음과 같이 차이가 난다.

[1] 132747
[1] 85362

2.4 텍스트 데이터 전처리

tidytext 팩키지를 활용하여 두 책을 깔끔한(tidy) 텍스트 형태로 만들어 데이터프레임으로 제작한 후에 영어라서 모든 영문자를 소문자로 변경시킨다. 그리고 나서 불용어(stopword)를 빼고 텍스트분석을 위한 자료구조로 만든다.

# A tibble: 4 x 3
# Groups:   book [2]
  book     word      n
  <chr>    <chr> <int>
1 케인즈   cost    371
2 케인즈   costs    81
3 하이에크 cost      5
4 하이에크 costs     5

3 탐색적 자연어 처리

다양한 시각화를 통해서 케인즈와 하이에크 책에 담긴 책의 내용을 살펴보자.

3.2 공통/비교 단어구름 2

공통 단어구름(commonality cloud)을 통해 케인즈와 하이에크가 공통으로 책을 집필하면서 가장 염두에 둔 단어가 어떻게 되는지 시각적으로 확인한다. wordcloud 팩키지 commonality.cloud() 함수는 행렬(matrix)로 입력값을 갖기 때문에 reshape2 팩키지 acast() 함수로 데이터프레임을 입력받아 commonality.cloud() 함수에 넣어 공통 단어구름 시각화 산출물을 생성시킨다.

비교 단어구름(comparison cloud)을 통해 케인즈와 하이에크를 대조함으로써 책을 집필하면서 가장 염두에 둔 단어가 어떻게 대비되는지 시각적으로 확인한다. wordcloud 팩키지 comparison.cloud() 함수는 행렬(matrix)로 입력값을 갖기 때문에 reshape2 팩키지 acast() 함수로 데이터프레임을 입력받아 comparison.cloud() 함수에 넣어 비교 단어구름 시각화 산출물을 생성시킨다.

3.3 파라미드 막대 비교그래프

plotrix 팩키지 pyramid.plot() 함수를 사용해서 케인즈와 하이에크가 가장 많이 사용한 단어 중 빈도수에서 차이가 큰 단어를 15개 뽑아 피라미드 막대그래프로 시각화한다. 케인즈 책에 사용된 단어가 하이에크 책에 사용된 단어보다 2배가량 많아 이를 하이에크에 2를 곱하여 일부 보정한다.

[1] 5.1 4.1 4.1 2.1