1 HWP 파일

코로나19 국내 발생 현황 (7.13.) 데이터를 HWP 파일로 제공하는 사례를 바탕으로 살펴보자.

2 HWP 파일에서 표추출

library(docxtractr)
library(tidyverse)

word_doc <- docxtractr::read_docx("data/hwp/코로나19_01.docx")

tbls <- docxtractr::docx_extract_all_tbls(word_doc)

tbls[c(5:6)]
[[1]]
# A tibble: 4 × 8
  V1           V2    V3    V4    V5    V6    V7    V8   
  <chr>        <chr> <chr> <chr> <chr> <chr> <chr> <chr>
1 구분         7.7.  7.8.  7.9.  7.10. 7.11. 7.12. 7.13.
2 사망자*      10    12    19    19    18    7     12   
3 재원중위중증 56    62    61    67    71    74    67   
4 입원         130   128   164   91    96    165   188  

[[2]]
# A tibble: 4 × 20
  V1    V2     V3    V4    V5    V6    V7    V8    V9    V10   V11   V12   V13  
  <chr> <chr>  <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
1 구분  합계   서울  부산  대구  인천  광주  대전  울산  세종  경기  강원  충북 
2 국내  39,868 9,353 2,501 1,405 2,021 794   956   1,119 369   11,1… 1,037 1,032
3 해외  398    10    4     24    76    20    12    10    6     57    10    37   
4 합계  40,266 9,363 2,505 1,429 2,097 814   968   1,129 375   11,1… 1,047 1,069
# … with 7 more variables: V14 <chr>, V15 <chr>, V16 <chr>, V17 <chr>,
#   V18 <chr>, V19 <chr>, V20 <chr>
tbl_colname <- tbls[[6]] %>% slice(1) %>% 
  unlist() %>% as.character(.)

tbls[[6]] %>% 
  set_names( tbl_colname ) %>% 
  slice(2:n()) %>% 
  pivot_longer(합계:검역, names_to = "시도", values_to = "확진자수") %>% 
  knitr::kable()
구분 시도 확진자수
국내 합계 39,868
국내 서울 9,353
국내 부산 2,501
국내 대구 1,405
국내 인천 2,021
국내 광주 794
국내 대전 956
국내 울산 1,119
국내 세종 369
국내 경기 11,118
국내 강원 1,037
국내 충북 1,032
국내 충남 1,573
국내 전북 1,032
국내 전남 839
국내 경북 1,626
국내 경남 2,143
국내 제주 950
국내 검역 0
해외 합계 398
해외 서울 10
해외 부산 4
해외 대구 24
해외 인천 76
해외 광주 20
해외 대전 12
해외 울산 10
해외 세종 6
해외 경기 57
해외 강원 10
해외 충북 37
해외 충남 25
해외 전북 18
해외 전남 11
해외 경북 24
해외 경남 23
해외 제주 14
해외 검역 17
합계 합계 40,266
합계 서울 9,363
합계 부산 2,505
합계 대구 1,429
합계 인천 2,097
합계 광주 814
합계 대전 968
합계 울산 1,129
합계 세종 375
합계 경기 11,175
합계 강원 1,047
합계 충북 1,069
합계 충남 1,598
합계 전북 1,050
합계 전남 850
합계 경북 1,650
합계 경남 2,166
합계 제주 964
합계 검역 17