1 캡차

reCaptcha는 사람에게는 쉽지만, 기계(봇, bot)에게는 어려운 문제(Easy on Humans, Hard on Bots)를 만들어 개발된 시스템이 기계에 의해 오남용되는 것을 방지하고자 하는 목적으로 개발되었다.

구글이 이 분야에서 앞서가고 있다보니 다음 동영상에 reCaptcha V3를 도입한 효과에 대해서 잘 파악할 수 있다.

  • 홈페이지: 스크래퍼를 필터링하는 동안 관리 콘솔에서 트래픽을 일관적으로 볼 수 있다.
  • 로그인: 점수가 낮으면 이중 인증(2FA)나 이메일 인증을 요구해서 무차별 대입 공격(브루트포스)를 막을 수 있다.
  • 소셜: 악성 유저의 친구 요청을 제한하고 위험한 댓글을 검토로 보낼 수 있다.
  • 전자상거래: 봇보다 먼저 판매할 수 있고 위험한 사기 거래를 식별할 수 있다.

2 캡챠 종류

캡챠는 전통적인 숫자를 보고 타이핑하여 방법부터 단순히 마우스를 클릭하는 체크박스(checkbox)를 거쳐 이미지 퍼즐을 맞추는 진화된 형태가 존재한다.

3 캡차 파해법

단순한 캡챠의 경우 “인간 OCR” 업무를 RPA에 힘을 불어넣는 방식으로 추진될 수 있는데 다음 기반 기술이 필요하다.

  1. 데이터셋
  2. 라벨 데이터 (Annotation)
  3. 캡챠 탐지 (YOLO)
  4. tesseract OCR
  5. 딥러닝
 

데이터 과학자 이광춘 저작

kwangchun.lee.7@gmail.com