tika
)tika
Apache Tika 프로젝트는 PPT, XLS, PDF 파일 같은 다양한 파일에서 텍스트와 메타데이터 추출을 목표하는 프로젝트다. 문서를 기록하는 방식은 PPT, XLS, PDF 파일 등을 통해서 다양하다. 하지만, 이를 분석하고 후속 작업을 수행하기 위해서는 Apache Tika - a content analysis toolkit와 같은 도구가 필수적이다. 이유는 삶을 편리하게 해주기 때문이다.
rtika
설치 1맥에서 아파치 tika
를 설치하기 위해서는 JAVA 환경이 설정되어야 한다. 오라클 JAVA를 설치한 경우 추후 저작권관련 여러 문제가 발생할 수도 있으니 openjdk
를 설치하는 것도 일을 단순화하는 방법이다. 다음과 같이 JAVA_HOME
환경이 설정되지 않는 경우 rtika
설치를 마무리할 수 없다.
Sys.getenv(‘JAVA_HOME’)
[1] ""
먼저 윈도우 혹은 MAC에서 openjdk
를 설치하고 이미지 PDF 파일 데이터 추출을 참조하여 PDF 텍스트 추출에 자바 의존성이 있는 tabulizer
팩키지 설치 사례를 참조한다.
그리고 나서 수작업으로 “맥에서 R(R Studio) Java 환경변수 설정”하는 경우 이를 시작할 때마다 자동화시키기 위해서 R에서 Startup option 설정하기 (on Mac OSX)을 참조하여 .Rprofile
파일에 Sys.setenv()
환경설정을 한다.
즉, ~/.Rprofile
파일을 편집기로 열어 다음 내용을 복사하여 넣는다.
# .Rprofile 파일
Sys.setenv(JAVA_HOME = '/Library/Java/JavaVirtualMachines/jdk-11.0.3.jdk/Contents/Home')
다음으로 rtika
팩키지를 설치한다. 중요한 것은 install.packages("rtika")
으로 설치가 완료되는 것이 아니라 library(rtika)
명령어를 실행시키면 JAVA_HOME
이 제대로 R에서 인식된 후에 rtika::install_tika()
을 통해 약 60MB jar 파일이 다운로드 되고 설치가 되면서 마무리가 된다.
ropensci/rtika 웹사이트에서 샘플 코드를 통해서 제대로 설치되었는지 확인한다.
library(rtika)
# Test files
batch <- c(
system.file("extdata", "jsonlite.pdf", package = "rtika"),
system.file("extdata", "curl.pdf", package = "rtika"),
system.file("extdata", "table.docx", package = "rtika"),
system.file("extdata", "xml2.pdf", package = "rtika"),
system.file("extdata", "R-FAQ.html", package = "rtika"),
system.file("extdata", "calculator.jpg", package = "rtika"),
system.file("extdata", "tika.apache.org.zip", package = "rtika")
)
# batches are best, and can also be piped with magrittr.
text <- tika_text(batch)
# text has one string for each document:
length(text)
[1] 7
Package ‘jsonlite’
June 1, 2017
Version 1.5
Title A Robust, High Performance JSON Parser and Generator for R
License MIT + file LICE