예측모형 개발 과정에 빠지지 않고 등장하는 것이 데이터 전처리(Data Preprocessing) 과정이다. readr
등을 통해 데이터를 R이나 모형개발 환경을 가져오게 되면 tidy
깔끔화과정을 거치게 되는데, 데이터를 가져온 다음 혹은 깔끔화 과정이 완료된 후에 데이터 전처리(Data Preprocessing) 과정을 수행한다.
흔히 데이터 전처리 과정은 데이터 정제(data cleansing)와 예측모형 개발을 위한 피쳐공학(feature engineering)과 동일시하는 경향이 있지만, 엄밀한 의미에서 보면 최종 목적이 다르기 때문에 각 목적에 맞는 데이터 전처리 과정에 적합한 용어를 취사선별하여 사용하는 것이 권장된다.
“More data beats clever algorithms, but better data beats more data.” – Peter Norvig
각 변수별 전처리 과정을 살펴보면, 결측값 대체를 통해 빠진 결측값을 채워넣는 과정과 중심화와 척도조정을 통해 통계모형에 예측력을 향상시키기 위한 과정이 필요하다.
또한, 분산이 없거나 매우 낮은 분산을 갖는 변수를 제거하고 변수간 상관관계가 높은 변수를 추출하는 과정도 변수간 전처리 과정에 포함된다.
파이썬에서 Featuretools
는 자동화된 피처공학(Automated Feature Engineering) 실현을 모토로 활발히 영역을 높여가고 있고, R에서는 recipes
를 바탕으로 역시 caret
의 다음 버전의 모형행렬 자료구조가 되도록 속도를 높여가나고 있다.
Featuretools를 통해서 자동화된 피처공학(Automated Feature Engineering) 접근법을 제시하고 있고, 그 이전 caret
에서 데이터 전처리과정에 강조되었던 기능은 recipes
팩키지로 넘어가 피처에 대한 공학작업을 명확히 명세하고 이를 바탕으로 모형행렬(Design Matrix)을 예측모형 알고리즘에 넣을 수 있도록 진화하고 있다.
“One of the holy grails of machine learning is to automate more and more of the feature engineering process.” – Pedro Domingos, A Few Useful Things to Know about Machine Learning
caret
예측모형 대부분은 숫자만을 입력값으로 받아야 하는데, 결측값이 입력값으로 전달되는 경우 이를 처리할 수 없다. 이런 문제를 해결하기 위해 결측값을 제거하지 않는 경우 데이터에 편향이 발생하여 모형신뢰성이 떨어진다.
데이터에 결측값이 존재하는 경우 결측값이 임의결측(Missing at Random, MAR)인 경우 중위수 대체법(Median Imputation)을 사용하고, 그렇지 않은 경우, 근처 값을 결측점에 채워넣는 knn 대체법(knn Imputation)을 사용한다.
회귀분석 사례로 많이 사용되는 보스터 집값 사례를 살펴보자. 데이터를 불러와서 glimpse
, summary
함수로 일별한다.
##===============================================
## 00. 환경설정
##===============================================
# Classification and Regression Training 팩키지
# install.packages("caret")
library(tidyverse)
library(tidymodels)
##===============================================
## 01. 데이터 가져오기
##===============================================
# 보스톤 주택가격
# install.packages("mlbench")
library(mlbench)
data("BostonHousing")
# 데이터 살펴보기
glimpse(BostonHousing)
Rows: 506
Columns: 14
$ crim <dbl> 0.00632, 0.02731, 0.02729, 0.03237, 0.06905, 0.02985, 0.088...
$ zn <dbl> 18.0, 0.0, 0.0, 0.0, 0.0, 0.0, 12.5, 12.5, 12.5, 12.5, 12.5...
$ indus <dbl> 2.31, 7.07, 7.07, 2.18, 2.18, 2.18, 7.87, 7.87, 7.87, 7.87,...
$ chas <fct> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,...
$ nox <dbl> 0.538, 0.469, 0.469, 0.458, 0.458, 0.458, 0.524, 0.524, 0.5...
$ rm <dbl> 6.575, 6.421, 7.185, 6.998, 7.147, 6.430, 6.012, 6.172, 5.6...
$ age <dbl> 65.2, 78.9, 61.1, 45.8, 54.2, 58.7, 66.6, 96.1, 100.0, 85.9...
$ dis <dbl> 4.0900, 4.9671, 4.9671, 6.0622, 6.0622, 6.0622, 5.5605, 5.9...
$ rad <dbl> 1, 2, 2, 3, 3, 3, 5, 5, 5, 5, 5, 5, 5, 4, 4, 4, 4, 4, 4, 4,...
$ tax <dbl> 296, 242, 242, 222, 222, 222, 311, 311, 311, 311, 311, 311,...
$ ptratio <dbl> 15.3, 17.8, 17.8, 18.7, 18.7, 18.7, 15.2, 15.2, 15.2, 15.2,...
$ b <dbl> 396.90, 396.90, 392.83, 394.63, 396.90, 394.12, 395.60, 396...
$ lstat <dbl> 4.98, 9.14, 4.03, 2.94, 5.33, 5.21, 12.43, 19.15, 29.93, 17...
$ medv <dbl> 24.0, 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9,...
summary(BostonHousing)
crim zn indus chas nox
Min. : 0.00632 Min. : 0.00 Min. : 0.46 0:471 Min. :0.3850
1st Qu.: 0.08205 1st Qu.: 0.00 1st Qu.: 5.19 1: 35 1st Qu.:0.4490
Median : 0.25651 Median : 0.00 Median : 9.69 Median :0.5380
Mean : 3.61352 Mean : 11.36 Mean :11.14 Mean :0.5547
3rd Qu.: 3.67708 3rd Qu.: 12.50 3rd Qu.:18.10 3rd Qu.:0.6240
Max. :88.97620 Max. :100.00 Max. :27.74 Max. :0.8710
rm age dis rad
Min. :3.561 Min. : 2.90 Min. : 1.130 Min. : 1.000
1st Qu.:5.886 1st Qu.: 45.02 1st Qu.: 2.100 1st Qu.: 4.000
Median :6.208 Median : 77.50 Median : 3.207 Median : 5.000
Mean :6.285 Mean : 68.57 Mean : 3.795 Mean : 9.549
3rd Qu.:6.623 3rd Qu.: 94.08 3rd Qu.: 5.188 3rd Qu.:24.000
Max. :8.780 Max. :100.00 Max. :12.127 Max. :24.000
tax ptratio b lstat
Min. :187.0 Min. :12.60 Min. : 0.32 Min. : 1.73
1st Qu.:279.0 1st Qu.:17.40 1st Qu.:375.38 1st Qu.: 6.95
Median :330.0 Median :19.05 Median :391.44 Median :11.36
Mean :408.2 Mean :18.46 Mean :356.67 Mean :12.65
3rd Qu.:666.0 3rd Qu.:20.20 3rd Qu.:396.23 3rd Qu.:16.95
Max. :711.0 Max. :22.00 Max. :396.90 Max. :37.97
medv
Min. : 5.00
1st Qu.:17.02
Median :21.20
Mean :22.53
3rd Qu.:25.00
Max. :50.00
sample
함수를 사용해서 임의 결측값을 생성하여 crim
변수에 10개 넣는다. caret
팩키지 train
함수를 사용해서 randomForest 모형을 적합시킨다. 하지만 결측값이 학습시킬 데이터에 포함되어 더이상 학습이 되지 않고 오류가 나오게 된다.
preProcess = "medianImpute"
인자를 train
함수에 넣어 중위수 대체를 하게 되면 결측값에 따른 문제가 해소된다.
##===============================================
## 02. 데이터 전처리
##===============================================
#------------------------------------------------
# 02.01. 중위수 대체
#------------------------------------------------
# 임의 결측값 채워넣기
library(randomForest)
set.seed(777)
sample(1:nrow(BostonHousing), 10), "crim"] <- NA
BostonHousing[# 예측모형: 설명변수와 종속변수 분리
BostonHousing$medv
Y <- BostonHousing[, 1:5]
X <-# caret 예측모형 적합
train(x = X, y = Y, method="rf")
model <-
# Something is wrong; all the RMSE metric values are missing:
# RMSE Rsquared
# Min. : NA Min. : NA
# 1st Qu.: NA 1st Qu.: NA
# Median : NA Median : NA
# Mean :NaN Mean :NaN
# 3rd Qu.: NA 3rd Qu.: NA
# Max. : NA Max. : NA
# NA's :3 NA's :3
# Error in train.default(x = X, y = Y, method = "rf") : Stopping
# In addition: There were 50 or more warnings (use warnings() to see the first 50)
# 해결책 : 중위수 대체
caret::train(x = X, y = Y, method="rf", preProcess = "medianImpute")
model <- model
데이터에 결측값이 랜덤으로 임의적으로 만들어진 것이 아닌 경우, 예를 들어 법죄가 0.5 이상인 경우 모드 결측값이 된 경우가 존재한다. 이런 경우 preProcess = "knnImpute"
인자는 다른 설명변수를 이용하여 결측값을 추정하여 채워넣게 된다. RMSE 값을 비교하면 더 향상된 것(RMSE 오차가 축소)이 확인된다.
#------------------------------------------------
# 02.02. knn 대체 : 결측값이 임의가 아님
#------------------------------------------------
# 범죄가 0.5 이상 결측값 채워넣기
set.seed(777)
data("BostonHousing")
$crim > 0.5, "crim"] <- NA
BostonHousing[BostonHousing# 예측모형: 설명변수와 종속변수 분리
BostonHousing$medv
Y <- BostonHousing[, c(1:3,5)]
X <-
caret::train(x = X, y = Y, method = "glm", preProcess = "medianImpute")
model_median <-print(min(model_median$results$RMSE))
[1] 7.870132
# install.packages("RANN")
caret::train(x = X, y = Y, method = "glm", preProcess = "knnImpute")
model_knn <-print(min(model_knn$results$RMSE))
[1] 8.170718
각 변수별로 결측값이 존재하는 경우 중위수 대체와 knn 대체 방법을 통해 가능하면 많은 변수를 모형에 활용할 수 있다. 결측값 처리 외에도 중심화, 척도조정 등 일련의 전처리 과정을 통해 예측모형 성능을 개선시켜 나간다.
이와 같은 결측값 처리, 중심화, 척도조정 작업이 caret
팩키지 preProcess
인자를 순차적으로 연결하여 자동화한다. 이런 경우 작업 순서가 매우 중요하다.
zv
, nzv
medianImpute
, knnImpute
center
scale
pca
, spatialSign
임의 결측값을 보스턴집값 데이터셋에 10개 넣은 후에 중위수 대체만 적용시켜 전처리하여 예측모형에 적합시킨 결과, 중위수 대체+중심화+척도조정 전처리하여 예측모형에 적합시킨 결과, 중위수 대체+중심화+척도조정+PCA 전처리하여 예측모형에 적합시킨 결과 RMSE 값을 비교하여 가장 적합한 전처리 방법을 선정한다.
##===============================================
## 03. 데이터 전처리 파이프라인
##===============================================
#------------------------------------------------
# 03.01. 전처리 파이프라인
#------------------------------------------------
# 임의 결측값 채워넣기
set.seed(777)
data("BostonHousing")
sample(1:nrow(BostonHousing), 10), "crim"] <- NA
BostonHousing[# 예측모형: 설명변수와 종속변수 분리
BostonHousing$medv
Y <- BostonHousing[, 1:13]
X <-
# caret 예측모형 적합: 기준
train(x = X, y = Y, method="glm", preProcess = c("medianImpute"))
model <-print(min(model$results$RMSE))
[1] 4.913436
# caret 예측모형 적합: 전처리 기본 파이프라인 적용
train(x = X, y = Y, method="glm", preProcess = c("medianImpute", "center", "scale"))
model <-print(min(model$results$RMSE))
[1] 4.861606
# caret 예측모형 적합: 전처리 전체 파이프라인 적용(PCA)
train(x = X, y = Y, method="glm", preProcess = c("medianImpute", "center", "scale", "pca"))
model <-print(min(model$results$RMSE))
[1] 5.107346
# caret 예측모형 적합: 전처리 전체 파이프라인 적용(PCA)
train(x = X, y = Y, method="glm", preProcess = c("medianImpute", "center", "scale", "spatialSign"))
model <-print(min(model$results$RMSE))
[1] 5.562131
일부 변수에 정보가 없거나 매우 낮은 경우가 있다. 이를 기반으로 예측모형을 개발할 경우 쓸모 없는 변수가 예측모형에 포함되어 기대하지 않은 많은 문제가 야기된다.
0
으로 변수의 모든 값이 동일."zv"
, "nzv"
값을 preProcess
인자로 넣는 경우 상수 변수와 거의 상수 변수를 처리할 수 있다.
"zv"
: 상수 변수 제거"nzv"
: 거의 상수 변수 제거X$variance_zero <- 7
명령어로 임의로 상수 변수를 생성시킨다. glm
모형을 적합시키면 오류가 생성된다. preProcess
에서 "zv"
인자를 넣어 분산이 0 인 변수를 전처리하여 제거한 후 예측모형을 개발하면 모형적합이 제대로 됨이 확인된다.
##===============================================
## 05. 변수 전처리 - 변수제거와 차원축소
##===============================================
#------------------------------------------------
# 05.01. 상수 변수: 분산이 0
#------------------------------------------------
# 임의 결측값 채워넣기
set.seed(777)
data("BostonHousing")
sample(1:nrow(BostonHousing), 10), "crim"] <- NA
BostonHousing[# 예측모형: 설명변수와 종속변수 분리
BostonHousing$medv
Y <- BostonHousing[, 1:13]
X <-# 상수값으로만 구성된 변수 추가
$variance_zero <- 7
X
## 모형적합
train(x = X, y = Y, method="glm", preProcess = c("medianImpute", "center", "scale", "pca"))
model <-
## 모형적합: 상수 변수 제거
train(x = X, y = Y, method="glm", preProcess = c("zv", "medianImpute", "center", "scale", "pca"))
model <-print(min(model$results$RMSE))
"zv"
인자 대신에 "nzv"
인자를 넣어도 좋지만, 명시적으로 nearZeroVar()
함수로 거의 상수 변수를 추출하여 이를 예측변수에 넣어 예측모형을 개발한다.
#-------------------------------------------------
# 05.02. 거의 상수 변수: 분산이 거의 0에 가까움
#-------------------------------------------------
# 임의 결측값 채워넣기
set.seed(777)
data("BostonHousing")
sample(1:nrow(BostonHousing), 10), "crim"] <- NA
BostonHousing[# 예측모형: 설명변수와 종속변수 분리
BostonHousing$medv
Y <- BostonHousing[, 1:13]
X <-
## 거의 상수 변수 정의: freqCut
nearZeroVar(X, freqCut = 20/5, saveMetrics=TRUE)
remove <-
X[ , setdiff(names(X), remove)]
X_small <-
## 모형적합: 상수 변수 제거
train(x = X_small, y = Y, method="glm", preProcess = c("medianImpute", "center", "scale", "pca"))
model <-print(min(model$results$RMSE))
[1] 5.174473
주성분 분석(Principal Component Analysis, PCA)을 통해 서로 상관관계가 높은 변수를 제거하여 다공선성(Collinearity) 문제를 해결하여 예측모형의 안정성을 높인다. preProcess = c("pca")
를 넣어주면 변수간에 상관관계가 높은 문제에 대한 전처리를 수행하게 된다.
#----------------------------------------------
# 05.03. 중복변수 제거: PCA
#----------------------------------------------
# 임의 결측값 채워넣기
set.seed(777)
data("BostonHousing")
sample(1:nrow(BostonHousing), 10), "crim"] <- NA
BostonHousing[# 예측모형: 설명변수와 종속변수 분리
BostonHousing$medv
Y <- BostonHousing[, 1:13]
X <-
## 모형적합: 상수 변수 제거
train(x = X, y = Y, method="glm", preProcess = c("medianImpute", "center", "scale", "pca"))
model <-print(min(model$results$RMSE))
[1] 5.174473
recipes
팩키지 recipes
팩키지는 피처공학 데이터 전처를 위한 요리법을 작성하는 recipe()
단계와 재료를 손질하는 준비 prep()
, 마지막으로 모형에 적합시킬 수 있는 형태 데이터로 변환시킨 bake()
함수를 적용하는 3단계로 나눠진다.
recipes
친해지기먼저, recipes
팩키지 3가지 단계를 익숙해지기 위해서 단계별로 recipe()
→ prep()
→ bake()
를 진행해보자.
library(tidymodels)
data("BostonHousing")
initial_split(data = BostonHousing, prop = 0.8, strata = 'medv')
splits <-
recipe(medv ~ . , data = training(splits)) %>%
price_rec <- step_log(medv, base = 10)
price_rec
Data Recipe
Inputs:
role #variables
outcome 1
predictor 13
Operations:
Log transformation on medv
prep()
단계를 통해 재료준비를 끝마쳐둔다.
price_rec %>%
price_rec_prep <- prep(training = training(splits))
price_rec_prep
Data Recipe
Inputs:
role #variables
outcome 1
predictor 13
Training data contained 407 data points and no missing data.
Operations:
Log transformation on medv [trained]
마지막으로 기계학습을 위한 데이터를 준비해보자. bake()
함수를 통해 medv
변수가 로그 변환된 것을 확인할 수 있다.
%>%
price_rec_prep bake(new_data = NULL)
# A tibble: 407 x 14
crim zn indus chas nox rm age dis rad tax ptratio b
<dbl> <dbl> <dbl> <fct> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 0.00632 18 2.31 0 0.538 6.58 65.2 4.09 1 296 15.3 397.
2 0.0273 0 7.07 0 0.469 6.42 78.9 4.97 2 242 17.8 397.
3 0.0273 0 7.07 0 0.469 7.18 61.1 4.97 2 242 17.8 393.
4 0.0324 0 2.18 0 0.458 7.00 45.8 6.06 3 222 18.7 395.
5 0.0690 0 2.18 0 0.458 7.15 54.2 6.06 3 222 18.7 397.
6 0.0298 0 2.18 0 0.458 6.43 58.7 6.06 3 222 18.7 394.
7 0.145 12.5 7.87 0 0.524 6.17 96.1 5.95 5 311 15.2 397.
8 0.211 12.5 7.87 0 0.524 5.63 100 6.08 5 311 15.2 387.
9 0.170 12.5 7.87 0 0.524 6.00 85.9 6.59 5 311 15.2 387.
10 0.225 12.5 7.87 0 0.524 6.38 94.3 6.35 5 311 15.2 393.
# ... with 397 more rows, and 2 more variables: lstat <dbl>, medv <dbl>
동일한 recipe
를 시험 데이터에도 적용시켜보자. 요리법은 동일하고 데이터만 바꿔주면 되기 때문에 시험데이터 testing(splits)
을 구워주면 기계학습 예측모형의 성능을 평가하는데 필요한 만반의 준비가 완료되었다.
%>%
price_rec_prep bake(new_data = testing(splits))
# A tibble: 99 x 14
crim zn indus chas nox rm age dis rad tax ptratio b
<dbl> <dbl> <dbl> <fct> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 0.0883 12.5 7.87 0 0.524 6.01 66.6 5.56 5 311 15.2 396.
2 0.117 12.5 7.87 0 0.524 6.01 82.9 6.23 5 311 15.2 397.
3 0.630 0 8.14 0 0.538 5.95 61.8 4.71 4 307 21 397.
4 0.784 0 8.14 0 0.538 5.99 81.7 4.26 4 307 21 387.
5 0.803 0 8.14 0 0.538 5.46 36.6 3.80 4 307 21 289.
6 1.25 0 8.14 0 0.538 5.57 98.1 3.80 4 307 21 377.
7 0.956 0 8.14 0 0.538 6.05 88.8 4.45 4 307 21 306.
8 1.15 0 8.14 0 0.538 5.70 95 3.79 4 307 21 359.
9 1.61 0 8.14 0 0.538 6.10 96.9 3.76 4 307 21 248.
10 0.0276 75 2.95 0 0.428 6.60 21.8 5.40 3 252 18.3 396.
# ... with 89 more rows, and 2 more variables: lstat <dbl>, medv <dbl>
chas
변수를 제외한 나머지 변수는 모두 숫자형이라 각 변수 자료유형에 맞춰 적절한 변수 변환작업을 수행한다. 범주형 변수와 숫자형 변수의 변수변환 작업에 차이가 있고 상황에 맞춰 적절히 조합시켜 활용한다. step_*()
단계별 적용 방식은 다음과 같다.
recipe(medv ~ . , data = training(splits)) %>%
house_rec <- step_log(medv, base = 10) %>%
step_normalize(all_numeric()) %>%
step_corr(all_numeric(), -all_outcomes(), threshold = 0.9) %>%
step_dummy(all_nominal(), -all_outcomes())
%>%
house_rec prep(training = training(splits)) %>%
bake(new_data = testing(splits))
# A tibble: 99 x 13
crim zn indus nox rm age dis rad ptratio b
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 -0.404 0.104 -0.488 -0.281 -0.409 -0.0829 0.939 -0.507 -1.48 0.412
2 -0.400 0.104 -0.488 -0.281 -0.414 0.502 1.27 -0.507 -1.48 0.427
3 -0.338 -0.463 -0.448 -0.161 -0.500 -0.255 0.511 -0.624 1.21 0.427
4 -0.319 -0.463 -0.448 -0.161 -0.441 0.459 0.285 -0.624 1.21 0.311
5 -0.317 -0.463 -0.448 -0.161 -1.20 -1.16 0.0533 -0.624 1.21 -0.807
6 -0.262 -0.463 -0.448 -0.161 -1.04 1.05 0.0540 -0.624 1.21 0.195
7 -0.298 -0.463 -0.448 -0.161 -0.359 0.714 0.383 -0.624 1.21 -0.608
8 -0.274 -0.463 -0.448 -0.161 -0.854 0.936 0.0486 -0.624 1.21 -0.00892
9 -0.218 -0.463 -0.448 -0.161 -0.289 1.00 0.0348 -0.624 1.21 -1.27
10 -0.411 2.94 -1.20 -1.10 0.424 -1.69 0.859 -0.740 -0.0415 0.413
# ... with 89 more rows, and 3 more variables: lstat <dbl>, medv <dbl>,
# chas_X1 <dbl>
Why Automated Feature Engineering Will Change the Way You Do Machine Learning↩︎
A Hands-On Guide to Automated Feature Engineering using Featuretools in Python↩︎
Automated Feature Engineering in Python - How to automatically create machine learning features↩︎
KDnuggets - Deep Feature Synthesis: How Automated Feature Engineering Works↩︎
Harrison, D. and Rubinfeld, D.L. (1978) Hedonic prices and the demand for clean air. J. Environ. Economics and Management 5, 81–102.↩︎
데이터 과학자 이광춘 저작
kwangchun.lee.7@gmail.com