위키백과, 서브랩에 따르면, 서브립(SubRip)은 자막을 리핑(추출)하는 윈도우용 소프트웨어 프로그램이다. 자유 소프트웨어이며, GNU GPL로 출시된다. 또, 서브립은 이 소프트웨어가 만든 자막 텍스트 파일 포맷의 이름이기도 하다. 확장자는 .srt
이다.
자막은 연속된 숫자로 나열되며, 1부터 시작한다. 사용되는 타임코드 포맷은 시간:분:초,밀리초이다. 서브립 .srt
파일 형식은 대부분의 소프트웨어 비디오 플레이어에서 지원된다.
168
00:20:41,150 --> 00:20:45,109
- How did he do that?
- Made him an offer he couldn't refuse.
SAMI(Synchronized Accessible Media Interchange)는 마이크로소프트에서 처음 방송에서 사용되던 Closed Caption 기능을 PC에서 영상, 음악 등 다양한 멀티미디어 환경에서 활용하도록 개발한 형식이다. SAMI의 상당부분이 HTML 이라 HTML 문법을 알게 되면 다채로운 자막 작업을 수행할 수 있다.
srt
패키지srt
패키지가 있어 이를 활용하면 쉽게 동영상의 자막 작업을 수행할 수 있다. 팩키지에 내장된 전형적인 .srt
확장자를 갖는 파일을 살펴보자. .srt
예제 파일
# remotes::install_github("kiernann/srt")
library(srt)
library(tidyverse)
library(tidytext)
srt_example()
srt <-
read_lines(srt)
srt_raw_text <-
srt_raw_text[srt_raw_text != ""]
srt_text <-
1:10] srt_text[
[1] "1" "00:01:25,210 --> 00:01:28,004"
[3] "I owe everything to George Bailey." "2"
[5] "00:01:28,422 --> 00:01:30,298" "Help him, dear Father."
[7] "3" "00:01:30,674 --> 00:01:33,718"
[9] "Joseph, Jesus and Mary," "4"
read_srt()
함수는 .srt
파일을 사용해서 깔끔한 데이터로 변환시켜 후속 작업을 수월히 진행시킬 수 있도록 시간을 많이 단축해 준다.
read_srt(path = srt, collapse = " ")) (wonderful_life <-
# A tibble: 2,268 x 4
n start end subtitle
<int> <dbl> <dbl> <chr>
1 1 85.2 88.0 I owe everything to George Bailey.
2 2 88.4 90.3 Help him, dear Father.
3 3 90.7 93.7 Joseph, Jesus and Mary,
4 4 93.8 96.4 help my friend Mr. Bailey.
5 5 96.9 99.5 Help my son George tonight.
6 6 100. 102. He never thinks about himself, God.
7 7 102. 104. That's why he's in trouble.
8 8 104. 105. George is a good guy.
9 9 106. 108. Give him a break, God.
10 10 108. 110. I love him, dear Lord.
# ... with 2,258 more rows
데이터 과학자 이광춘 저작
kwangchun.lee.7@gmail.com