1 온라인 유통점 거래 데이터

UCI Machine Learning Repository - Online Retail Data Set을 다운로드 받아 인터랙티브 시각화를 통해 제품추천에 대한 인사이트를 얻을 수 있도록 한다.

2 고객 세그먼트

온라인 유통 거래 데이터를 바탕으로 고객별로 RFM 위주로 Feature를 추출하고 이를 바탕으로 K-평균 군집분석을 수행하여 적절한 군집갯수를 만든 후에 각 군집마다 많이 구매하는 제품을 함수형 프로그래밍을 통해서 시각화한다. 특히, 고급 추천 알고리즘을 제작하는 대신 기계와 인간이 공존하는 성공 모형을 만들고자 인터랙티브 시각화 기법을 접목시켜 고급 추천 알고리즘을 능가할 수 있는 데이터 과학제품을 제작하는 것을 목표로 삼아본다.

2.1 데이터 가져오기

readxl 팩키지를 활용하여 read_excel() 함수로 온라인 소매점 거래 데이터를 불러읽어온다. 변수명을 정리하고 표본으로 100개만 뽑아서 원본 데이터를 살펴본다.

2.2 데이터와 사투

고객별 RFM을 만들기 위해서 기본 Feature 추출 작업을 수행한다. 그리고 나서 rfm_df라는 데이터프레임을 만들어서 K-평균 군집분석을 수행한다. 왜 K-평균 군집분석을 수행하는지 곰곰히 생각해 보기 바란다. 정 궁금하면 R Meetup X PRESSer에 와서 전문가에게 문의해도 좋을 듯 싶다.

3 고객 세그먼트 제품 추천

K-평균 군집알고리즘으로 파악한 세분화된 고객 군집을 국가와 결합하여 각 군집별 특성을 요약한 표를 작성한다.

다음으로 각 군집에서 고객들이 많이 구입한 제품을 상위 10개를 뽑아 이를 시각화한다. 함수형 프로그래밍을 활용하여 각 고객 세그먼트에서 가장 많이 구매한 제품을 상위 10개 뽑아 인터랙티브하게 시각화해 둔다. 더블어 각 고객세그먼트를 나타낼 수 있도록 프로파일 측도도 함께 넣어둔다.