자연어 처리 - 텍스트

학습목차

  1. 텍스트 데이터
    1. 단어주머니(Bag of Words)
    2. 텍스트 데이터와 저작
    3. 지프 법칙(Zipf law) - 시군 인구
    4. 텍스트 데이터 – 트위터
  2. 텍스트 데이터 다루기
    1. 대한민국 헌법
    2. 숫자를 문자로 표현
    3. stringr을 통해 문자열/텍스트 다루기
  3. 단어주머니(Bag of Words)와 TF-IDF
    1. BoW와 TF-IDF
  4. 탐색적 데이터 분석
    1. 아마존 vs. 구글
    2. 해외연극 등장인물 출현횟수
    3. 국내영화(건축학 개론) 등장인물 출현횟수
    4. 소설 텍스트 데이터 분석 – 소나기
    5. 저녁이 있는 삶 – 손학규
    6. 연설문 판별 - 오바마 vs. 롬니
  5. 감성분석(Sentiment Analysis)
    1. 감성분석(Sentiment Analysis) - 깔끔한 텍스트 방식(tidytext)
    2. 고객 방문후기 평점 감성분석 - 옐프(Yelp)
    3. 영어 교과서 감성분석
  6. 토픽 모형 (Topic Model)
    1. 셜록홈즈 - 단어구름에서 토픽모형
    2. 트위터 - tidyverse + tidytext
  7. 기계학습과 딥러닝(Deep Learning)
    1. 객체 변환: tmtidytext
    2. tm: 텍스트 분류(Text Classification) - 나이브 베이즈(naive bayes)
    3. tidytext: 텍스트 분류(Text Classification) - 나이브 베이즈(naive bayes)
    4. 영화 평점 - 무비렌즈(MovieLens)
    5. SMS 스팸분류 - Random Forest
    6. 정규표현식에서 워드2벡(Word2Vec)
    7. 캐글 - 전자상거래 옷 리뷰
    8. 재난 트윗 분류기 - tidytextcaret
  8. 한국어
    1. 한국어 R Meetup - 류충현: 대통령 연설문 - 데이터 긁어오기, 대통령 연설문 - DTM 만들기
    2. RmecabKo 설치 - 맥(Mac)
  9. R 파이썬을 만나다.
    1. 자연어 처리 입문 - 텍스트 → 단어주머니(Bag of Words)
    2. 자연어 처리 중급
    3. 데이터과학 - 파이썬 자료구조
  10. LangCon - 자연어 처리의 화장을 하지 않은 얼굴: 튜토리얼
  11. 공정거래법 전면개편안
    1. 최고의 OCR 엔진
    2. EDA 텍스트 마이닝
    3. 워드 임베딩(Word Embedding)
    4. 워드 임베딩(Word Embedding): 영어(GloVe)
    5. 워드 임베딩(Word Embedding): 한국어
    6. 기계독해(MRC): RBERT
    7. 지도학습