문서를 이해하는 AI
“직사각형 데이터를 넘어서”
“이광춘 (삼정 KPMG)”
2019년 9월 18일
문서 != 문서 편집기
사무자동화의 꽃 - MS 오피스
도전받는 데이터 사이언스 도구
엑셀
파워포인트
워드
액세스
디지털 리터러시 특강: 한림대
텍스트 마이닝(text mining)
텍스트 데이터 분석 - R
자연어 처리 - 텍스트
텍스트 데이터 분석 - R
LangCon2019: NLP하기 좋은 날입니다!
유튜브 댓글 텍스트 분석
자연어 처리 (NLP)
정규표현식
Software Carpentry - 정규표현식(Regular Expression)
EDA
텍스트 데이터 시각화
텍스트 기술통계량
파이썬 NLTK 도우미
textblob - 객체지향 NLP 라이브러리
모형
문서분류 - 헬로월드
문서분류 - 뉴스기사 분류 (M/L)
문서분류 - 뉴스기사 분류 (D/L)
감성분석 빅픽쳐
트위터 감성 예측
이력서
데이터 사이언스: 저작(Authoring) - 이력서(Resume)
데이터 과학: 재현가능한 저작 - 이력서
영문 이력서
문서 ~ PDF
원재료 추출
PDF
문자인식(OCR) - tesseract
PDF 감옥에서 데이터를 탈출시키다.
PPT 장표 - OCR tesseract
Document AI
반정형 문서 - 이력서
데이터 사이언스: 저작(Authoring) -이력서(Resume)
데이터 과학: 재현가능한 저작 - 이력서
마치며
KPMG hiring