데이터 과학

뉴욕타임즈 기사 병렬처리 사례

학습 목표

  • 병렬 컴퓨팅을 이해한다.
  • 뉴욕타임즈 시간여행 기사 이미지지 병렬 알고리즘 사례를 살펴본다.

1. 뉴욕타임즈 시간여행 사례

시간여행(TimeMachine) 서비스는 1851-1922년 (퍼블릭 도메인) 신문기사 전체를 스캔해서 데이터형태로 저장했다.

  • 시간여행 웹친화적 서비스가 되기 모습
    • 405,000 TIFF 이미지
    • 3.3 백만 SGML, 405,000 XML
  • 시간여행 웹친화적 서비스가 된 모습
    • 810,000 PNG 이미지 (섬네일조각 이미지와 전체 이미지)
    • 405,000 자바스크립트 파일
  • 총 처리시간: 36시간
  • 작업방법 : AWS EC2/S3/Hadoop 활용
    • 수백대 가상 컴퓨터를 병렬 처리

뉴욕타임즈 기사 변환

뉴욕타임즈 기사 변환

참고: The New York Times Archives + Amazon Web Services = TimesMachine