파워포인트 동영상 제작에 사용된 원본 파일은 다운로드 받아 직접 실습에 사용할 수 있다.
ari
환경설정webshot::install_phantomjs()
을 ari
팩키지와 함께 설치해야 된다. 또한, docxtractr
팩키지는 LibreOffice가 필요하다. set_libreoffice_path()
함수를 사용해서 soffice.exe
위치를 설정한다.
특히 usethis::edit_r_environ()
명령어를 사용하여 ~/.Renviron
파일에 AWS Polly 텍스트 음성 변환 API를 사용하도록 기본 설정을 한다.
docxtractr
팩키지를 사용해서 convert_to_pdf()
함수로 PDF 파일로 변환시킨다. 그리고 나서 각 슬라이드를 이미지로 활용할 수 있고 슬라이드 노트도 추출할 수 있다.
먼저 pptx_notes()
함수로 슬라이드에 달린 텍스트 노트만 추출한다.
ocr_pdf <- docxtractr::convert_to_pdf("data/Xaringan_OCR.pptx") # >= 0.6.2
notes <- ariExtra::pptx_notes("data/Xaringan_OCR.pptx")
notes[1]
notesSlide1.xml
"안녕하세요 . 데이터 과학자 이광춘입니다 . 제가 발표드릴 발표주제는 “ Document as a Data” 입니다 . 문서를 데이터로 이해하는 방식은 다소 생소할 수 있으나 데이터 과학의 기본이며 OCR 기술을 활용하여 데이터화하는 개념을 아주 높은 수준에서 일별하고자 합니다 . 1"
각 슬라이드를 PNG 파일로 변환시킨 후에 이를 magick
팩키지로 살펴본다.
Converting page 1 to Xaringan_OCR_1.png... done!
Converting page 2 to Xaringan_OCR_2.png... done!
Converting page 3 to Xaringan_OCR_3.png... done!
Converting page 4 to Xaringan_OCR_4.png... done!
Converting page 5 to Xaringan_OCR_5.png... done!
Converting page 6 to Xaringan_OCR_6.png... done!
Converting page 7 to Xaringan_OCR_7.png... done!
Converting page 8 to Xaringan_OCR_8.png... done!
Converting page 9 to Xaringan_OCR_9.png... done!
Converting page 10 to Xaringan_OCR_10.png... done!
data/OCR/Xaringan_OCR_1.png data/OCR/Xaringan_OCR_10.png
data/OCR/Xaringan_OCR_2.png data/OCR/Xaringan_OCR_3.png
data/OCR/Xaringan_OCR_4.png data/OCR/Xaringan_OCR_5.png
data/OCR/Xaringan_OCR_6.png data/OCR/Xaringan_OCR_7.png
data/OCR/Xaringan_OCR_8.png data/OCR/Xaringan_OCR_9.png
앞서 변환시킨 결과를 슬라이드 이미지로 살펴본다.