중앙선거 여론조사 심의위원회 포탈에서 여론조사결과 현황을 파악할 수 있다. 문제는 PDF 파일을 이미지로 찍어 HTML 웹으로 변환시켜 공개하고 있다는 사실이다.
다음 여론조사 결과를 데이터로 삼아 PDF 이미지에서 표를 식별하고 데이터프레임으로 변환시키는 방법을 살펴보자.
여론조사결과 등록현황 상세보기 웹사이트에 올라온 내용을 webshot
으로 떠서 이를 이미지로 저장한다.
이를 위해서 먼저 웹사이트에서 마우스 우클릭을 하고 “검사”를 열어 추출하고자 하는 영역의 selector
위치를 특정시킨다.
webshot
팩키지를 가져와서 selector
에 복사한 특정 영역을 붙여넣는다. 그리고 나서 이를 나중에 사용할 것이라… fig/nesdc.png
fig
디렉토리 nesdc.png
파일로 저장시킨다.
library(webshot)
nesdc_overview_url <- "https://www.nesdc.go.kr/portal/bbs/B0000005/view.do?nttId=6637&menuNo=200467&searchTime=&sdate=&edate=&pdate=&pollGubuncd=&searchCnd=&searchWrd=&pageIndex=1"
webshot(nesdc_overview_url, "fig/nesdc.png", selector = 'body > section > div > div > div.content > table:nth-child(5)', delay=0.5)
HTML 코드가 예술이다… 코드 리뷰는 어디 갔는지 … 누군가 코드 리뷰하고 검수를 해야 되는게 아닌지…
selector
HTML 내부 코드를 보자.
body > section > div > div > div.content > table.table.temp.view
body > section > div > div > div.content > div.tapview > div.set1
#ADDtable1
#ADDtable2
body > section > div > div > div.content > table:nth-child(12)