1 자막1

위키백과, 서브랩에 따르면, 서브립(SubRip)은 자막을 리핑(추출)하는 윈도우용 소프트웨어 프로그램이다. 자유 소프트웨어이며, GNU GPL로 출시된다. 또, 서브립은 이 소프트웨어가 만든 자막 텍스트 파일 포맷의 이름이기도 하다. 확장자는 .srt이다.

자막은 연속된 숫자로 나열되며, 1부터 시작한다. 사용되는 타임코드 포맷은 시간:분:초,밀리초이다. 서브립 .srt 파일 형식은 대부분의 소프트웨어 비디오 플레이어에서 지원된다.

168
00:20:41,150 --> 00:20:45,109
- How did he do that?
- Made him an offer he couldn't refuse.

SAMI(Synchronized Accessible Media Interchange)는 마이크로소프트에서 처음 방송에서 사용되던 Closed Caption 기능을 PC에서 영상, 음악 등 다양한 멀티미디어 환경에서 활용하도록 개발한 형식이다. SAMI의 상당부분이 HTML 이라 HTML 문법을 알게 되면 다채로운 자막 작업을 수행할 수 있다.

2 srt 패키지

srt 패키지가 있어 이를 활용하면 쉽게 동영상의 자막 작업을 수행할 수 있다. 팩키지에 내장된 전형적인 .srt 확장자를 갖는 파일을 살펴보자. .srt 예제 파일

# remotes::install_github("kiernann/srt")
library(srt)
library(tidyverse)
library(tidytext)
srt <- srt_example()

srt_raw_text <- read_lines(srt)

srt_text <- srt_raw_text[srt_raw_text != ""]

srt_text[1:10]
 [1] "1"                                  "00:01:25,210 --> 00:01:28,004"     
 [3] "I owe everything to George Bailey." "2"                                 
 [5] "00:01:28,422 --> 00:01:30,298"      "Help him, dear Father."            
 [7] "3"                                  "00:01:30,674 --> 00:01:33,718"     
 [9] "Joseph, Jesus and Mary,"            "4"                                 

read_srt() 함수는 .srt 파일을 사용해서 깔끔한 데이터로 변환시켜 후속 작업을 수월히 진행시킬 수 있도록 시간을 많이 단축해 준다.

(wonderful_life <- read_srt(path = srt, collapse = " "))
# A tibble: 2,268 x 4
       n start   end subtitle                           
   <int> <dbl> <dbl> <chr>                              
 1     1  85.2  88.0 I owe everything to George Bailey. 
 2     2  88.4  90.3 Help him, dear Father.             
 3     3  90.7  93.7 Joseph, Jesus and Mary,            
 4     4  93.8  96.4 help my friend Mr. Bailey.         
 5     5  96.9  99.5 Help my son George tonight.        
 6     6 100.  102.  He never thinks about himself, God.
 7     7 102.  104.  That's why he's in trouble.        
 8     8 104.  105.  George is a good guy.              
 9     9 106.  108.  Give him a break, God.             
10    10 108.  110.  I love him, dear Lord.             
# ... with 2,258 more rows
 

데이터 과학자 이광춘 저작

kwangchun.lee.7@gmail.com