1 예측모형을 위한 데이터 전처리12

예측모형 개발 과정에 빠지지 않고 등장하는 것이 데이터 전처리(Data Preprocessing) 과정이다. readr 등을 통해 데이터를 R이나 모형개발 환경을 가져오게 되면 tidy 깔끔화과정을 거치게 되는데, 데이터를 가져온 다음 혹은 깔끔화 과정이 완료된 후에 데이터 전처리(Data Preprocessing) 과정을 수행한다.

흔히 데이터 전처리 과정은 데이터 정제(data cleansing)와 예측모형 개발을 위한 피쳐공학(feature engineering)과 동일시하는 경향이 있지만, 엄밀한 의미에서 보면 최종 목적이 다르기 때문에 각 목적에 맞는 데이터 전처리 과정에 적합한 용어를 취사선별하여 사용하는 것이 권장된다.

“More data beats clever algorithms, but better data beats more data.” – Peter Norvig

각 변수별 전처리 과정을 살펴보면, 결측값 대체를 통해 빠진 결측값을 채워넣는 과정과 중심화와 척도조정을 통해 통계모형에 예측력을 향상시키기 위한 과정이 필요하다.

또한, 분산이 없거나 매우 낮은 분산을 갖는 변수를 제거하고 변수간 상관관계가 높은 변수를 추출하는 과정도 변수간 전처리 과정에 포함된다.

  • 결측값 대체: 중위수 대체법, knn 대체
  • 피쳐 척도조정(Feature Scaling): 중심화(Centering), 척도조정(Scaling)
  • 분산이 없거나, 매우 낮은 분산을 갖는 변수 제거
  • 분산이 낮거나 상관변수를 추출: PCA
  • 피처 생성: 시간/날짜 데이터, 텍스트/이미지/소리 등 데이터에서 피처를 추출

데이터 전처리 과정

2 왜 피처 공학인가?345

파이썬에서 Featuretools는 자동화된 피처공학(Automated Feature Engineering) 실현을 모토로 활발히 영역을 높여가고 있고, R에서는 recipes를 바탕으로 역시 caret의 다음 버전의 모형행렬 자료구조가 되도록 속도를 높여가나고 있다.

Featuretools를 통해서 자동화된 피처공학(Automated Feature Engineering) 접근법을 제시하고 있고, 그 이전 caret에서 데이터 전처리과정에 강조되었던 기능은 recipes 팩키지로 넘어가 피처에 대한 공학작업을 명확히 명세하고 이를 바탕으로 모형행렬(Design Matrix)을 예측모형 알고리즘에 넣을 수 있도록 진화하고 있다.

수작업과 자동 피처 공학

“One of the holy grails of machine learning is to automate more and more of the feature engineering process.” – Pedro Domingos, A Few Useful Things to Know about Machine Learning

3 피처 공학 기법: caret

예측모형 대부분은 숫자만을 입력값으로 받아야 하는데, 결측값이 입력값으로 전달되는 경우 이를 처리할 수 없다. 이런 문제를 해결하기 위해 결측값을 제거하지 않는 경우 데이터에 편향이 발생하여 모형신뢰성이 떨어진다.

3.1 결측값 대체

데이터에 결측값이 존재하는 경우 결측값이 임의결측(Missing at Random, MAR)인 경우 중위수 대체법(Median Imputation)을 사용하고, 그렇지 않은 경우, 근처 값을 결측점에 채워넣는 knn 대체법(knn Imputation)을 사용한다.

3.1.1 결측값 대체 사례6

회귀분석 사례로 많이 사용되는 보스터 집값 사례를 살펴보자. 데이터를 불러와서 glimpse, summary 함수로 일별한다.

##===============================================
## 00. 환경설정
##===============================================
# Classification and Regression Training 팩키지
# install.packages("caret")
library(tidyverse)
library(tidymodels)

##===============================================
## 01. 데이터 가져오기
##===============================================
# 보스톤 주택가격
# install.packages("mlbench")
library(mlbench)
data("BostonHousing")

# 데이터 살펴보기
glimpse(BostonHousing)
Rows: 506
Columns: 14
$ crim    <dbl> 0.00632, 0.02731, 0.02729, 0.03237, 0.06905, 0.02985, 0.088...
$ zn      <dbl> 18.0, 0.0, 0.0, 0.0, 0.0, 0.0, 12.5, 12.5, 12.5, 12.5, 12.5...
$ indus   <dbl> 2.31, 7.07, 7.07, 2.18, 2.18, 2.18, 7.87, 7.87, 7.87, 7.87,...
$ chas    <fct> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,...
$ nox     <dbl> 0.538, 0.469, 0.469, 0.458, 0.458, 0.458, 0.524, 0.524, 0.5...
$ rm      <dbl> 6.575, 6.421, 7.185, 6.998, 7.147, 6.430, 6.012, 6.172, 5.6...
$ age     <dbl> 65.2, 78.9, 61.1, 45.8, 54.2, 58.7, 66.6, 96.1, 100.0, 85.9...
$ dis     <dbl> 4.0900, 4.9671, 4.9671, 6.0622, 6.0622, 6.0622, 5.5605, 5.9...
$ rad     <dbl> 1, 2, 2, 3, 3, 3, 5, 5, 5, 5, 5, 5, 5, 4, 4, 4, 4, 4, 4, 4,...
$ tax     <dbl> 296, 242, 242, 222, 222, 222, 311, 311, 311, 311, 311, 311,...
$ ptratio <dbl> 15.3, 17.8, 17.8, 18.7, 18.7, 18.7, 15.2, 15.2, 15.2, 15.2,...
$ b       <dbl> 396.90, 396.90, 392.83, 394.63, 396.90, 394.12, 395.60, 396...
$ lstat   <dbl> 4.98, 9.14, 4.03, 2.94, 5.33, 5.21, 12.43, 19.15, 29.93, 17...
$ medv    <dbl> 24.0, 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9,...
summary(BostonHousing)
      crim                zn             indus       chas         nox        
 Min.   : 0.00632   Min.   :  0.00   Min.   : 0.46   0:471   Min.   :0.3850  
 1st Qu.: 0.08205   1st Qu.:  0.00   1st Qu.: 5.19   1: 35   1st Qu.:0.4490  
 Median : 0.25651   Median :  0.00   Median : 9.69           Median :0.5380  
 Mean   : 3.61352   Mean   : 11.36   Mean   :11.14           Mean   :0.5547  
 3rd Qu.: 3.67708   3rd Qu.: 12.50   3rd Qu.:18.10           3rd Qu.:0.6240  
 Max.   :88.97620   Max.   :100.00   Max.   :27.74           Max.   :0.8710  
       rm             age              dis              rad        
 Min.   :3.561   Min.   :  2.90   Min.   : 1.130   Min.   : 1.000  
 1st Qu.:5.886   1st Qu.: 45.02   1st Qu.: 2.100   1st Qu.: 4.000  
 Median :6.208   Median : 77.50   Median : 3.207   Median : 5.000  
 Mean   :6.285   Mean   : 68.57   Mean   : 3.795   Mean   : 9.549  
 3rd Qu.:6.623   3rd Qu.: 94.08   3rd Qu.: 5.188   3rd Qu.:24.000  
 Max.   :8.780   Max.   :100.00   Max.   :12.127   Max.   :24.000  
      tax           ptratio            b              lstat      
 Min.   :187.0   Min.   :12.60   Min.   :  0.32   Min.   : 1.73  
 1st Qu.:279.0   1st Qu.:17.40   1st Qu.:375.38   1st Qu.: 6.95  
 Median :330.0   Median :19.05   Median :391.44   Median :11.36  
 Mean   :408.2   Mean   :18.46   Mean   :356.67   Mean   :12.65  
 3rd Qu.:666.0   3rd Qu.:20.20   3rd Qu.:396.23   3rd Qu.:16.95  
 Max.   :711.0   Max.   :22.00   Max.   :396.90   Max.   :37.97  
      medv      
 Min.   : 5.00  
 1st Qu.:17.02  
 Median :21.20  
 Mean   :22.53  
 3rd Qu.:25.00  
 Max.   :50.00  

3.1.1.1 임의 결측값 대체 전략 - 중위수 대체

sample 함수를 사용해서 임의 결측값을 생성하여 crim 변수에 10개 넣는다. caret 팩키지 train 함수를 사용해서 randomForest 모형을 적합시킨다. 하지만 결측값이 학습시킬 데이터에 포함되어 더이상 학습이 되지 않고 오류가 나오게 된다.

preProcess = "medianImpute" 인자를 train 함수에 넣어 중위수 대체를 하게 되면 결측값에 따른 문제가 해소된다.

##===============================================
## 02. 데이터 전처리
##===============================================


#------------------------------------------------
# 02.01. 중위수 대체
#------------------------------------------------
# 임의 결측값 채워넣기
library(randomForest)
set.seed(777)
BostonHousing[sample(1:nrow(BostonHousing), 10), "crim"] <- NA
# 예측모형: 설명변수와 종속변수 분리
Y <- BostonHousing$medv
X <- BostonHousing[, 1:5]
# caret 예측모형 적합
model <- train(x = X, y = Y, method="rf")

  # Something is wrong; all the RMSE metric values are missing:
  #   RMSE        Rsquared  
  # Min.   : NA   Min.   : NA  
  # 1st Qu.: NA   1st Qu.: NA  
  # Median : NA   Median : NA  
  # Mean   :NaN   Mean   :NaN  
  # 3rd Qu.: NA   3rd Qu.: NA  
  # Max.   : NA   Max.   : NA  
  # NA's   :3     NA's   :3    
  # Error in train.default(x = X, y = Y, method = "rf") : Stopping
  # In addition: There were 50 or more warnings (use warnings() to see the first 50)

# 해결책 : 중위수 대체
model <- caret::train(x = X, y = Y, method="rf", preProcess = "medianImpute")
model

3.1.1.2 임의 랜덤이 아닌 결측값 - knn 대체

데이터에 결측값이 랜덤으로 임의적으로 만들어진 것이 아닌 경우, 예를 들어 법죄가 0.5 이상인 경우 모드 결측값이 된 경우가 존재한다. 이런 경우 preProcess = "knnImpute" 인자는 다른 설명변수를 이용하여 결측값을 추정하여 채워넣게 된다. RMSE 값을 비교하면 더 향상된 것(RMSE 오차가 축소)이 확인된다.

#------------------------------------------------
# 02.02. knn 대체 : 결측값이 임의가 아님
#------------------------------------------------
# 범죄가 0.5 이상 결측값 채워넣기
set.seed(777) 
data("BostonHousing")
BostonHousing[BostonHousing$crim > 0.5, "crim"] <- NA
# 예측모형: 설명변수와 종속변수 분리
Y <- BostonHousing$medv
X <- BostonHousing[, c(1:3,5)]

model_median <- caret::train(x = X, y = Y, method = "glm", preProcess = "medianImpute")
print(min(model_median$results$RMSE))
[1] 7.870132
# install.packages("RANN")
model_knn <- caret::train(x = X, y = Y, method = "glm", preProcess = "knnImpute")
print(min(model_knn$results$RMSE))
[1] 8.170718

3.2 변수 전처리 파이프라인

각 변수별로 결측값이 존재하는 경우 중위수 대체와 knn 대체 방법을 통해 가능하면 많은 변수를 모형에 활용할 수 있다. 결측값 처리 외에도 중심화, 척도조정 등 일련의 전처리 과정을 통해 예측모형 성능을 개선시켜 나간다.

이와 같은 결측값 처리, 중심화, 척도조정 작업이 caret 팩키지 preProcess 인자를 순차적으로 연결하여 자동화한다. 이런 경우 작업 순서가 매우 중요하다.

  1. 분산이 없거나, 매우 낮은 분산을 갖는 변수 제거 → zv, nzv
  2. 결측값 대체, 중위수 대체법, knn 대체 → medianImpute, knnImpute
  3. 중심화(Centering) → center
  4. 척도조정(Scaling) → scale
  5. 분산이 낮거나 상관변수를 추출, PCA → pca, spatialSign

변수제거, 결측값, 중복정보 제거

임의 결측값을 보스턴집값 데이터셋에 10개 넣은 후에 중위수 대체만 적용시켜 전처리하여 예측모형에 적합시킨 결과, 중위수 대체+중심화+척도조정 전처리하여 예측모형에 적합시킨 결과, 중위수 대체+중심화+척도조정+PCA 전처리하여 예측모형에 적합시킨 결과 RMSE 값을 비교하여 가장 적합한 전처리 방법을 선정한다.

##===============================================
## 03. 데이터 전처리 파이프라인
##===============================================

#------------------------------------------------
# 03.01. 전처리 파이프라인
#------------------------------------------------
# 임의 결측값 채워넣기
set.seed(777)
data("BostonHousing")
BostonHousing[sample(1:nrow(BostonHousing), 10), "crim"] <- NA
# 예측모형: 설명변수와 종속변수 분리
Y <- BostonHousing$medv
X <- BostonHousing[, 1:13]

# caret 예측모형 적합: 기준
model <- train(x = X, y = Y, method="glm", preProcess = c("medianImpute"))
print(min(model$results$RMSE))
[1] 4.913436
# caret 예측모형 적합: 전처리 기본 파이프라인 적용
model <- train(x = X, y = Y, method="glm", preProcess = c("medianImpute", "center", "scale"))
print(min(model$results$RMSE))
[1] 4.861606
# caret 예측모형 적합: 전처리 전체 파이프라인 적용(PCA)
model <- train(x = X, y = Y, method="glm", preProcess = c("medianImpute", "center", "scale", "pca"))
print(min(model$results$RMSE))
[1] 5.107346
# caret 예측모형 적합: 전처리 전체 파이프라인 적용(PCA)
model <- train(x = X, y = Y, method="glm", preProcess = c("medianImpute", "center", "scale", "spatialSign"))
print(min(model$results$RMSE))
[1] 5.562131

3.3 변수 제거와 중복 변수 제거

일부 변수에 정보가 없거나 매우 낮은 경우가 있다. 이를 기반으로 예측모형을 개발할 경우 쓸모 없는 변수가 예측모형에 포함되어 기대하지 않은 많은 문제가 야기된다.

  • 상수 변수: 분산이 0 으로 변수의 모든 값이 동일.
  • 거의 상수 변수: 분산이 매우 작아 변수의 모든 값이 특정 값에 몰려있는 경우.

"zv", "nzv" 값을 preProcess 인자로 넣는 경우 상수 변수와 거의 상수 변수를 처리할 수 있다.

  • "zv" : 상수 변수 제거
  • "nzv" : 거의 상수 변수 제거

3.3.1 상수 변수 제거

X$variance_zero <- 7 명령어로 임의로 상수 변수를 생성시킨다. glm 모형을 적합시키면 오류가 생성된다. preProcess에서 "zv" 인자를 넣어 분산이 0 인 변수를 전처리하여 제거한 후 예측모형을 개발하면 모형적합이 제대로 됨이 확인된다.

##===============================================
## 05. 변수 전처리 - 변수제거와 차원축소
##===============================================

#------------------------------------------------
# 05.01. 상수 변수: 분산이 0
#------------------------------------------------
# 임의 결측값 채워넣기
set.seed(777)
data("BostonHousing")
BostonHousing[sample(1:nrow(BostonHousing), 10), "crim"] <- NA
# 예측모형: 설명변수와 종속변수 분리
Y <- BostonHousing$medv
X <- BostonHousing[, 1:13]
# 상수값으로만 구성된 변수 추가
X$variance_zero <- 7

## 모형적합
model <- train(x = X, y = Y, method="glm", preProcess = c("medianImpute", "center", "scale", "pca"))

## 모형적합: 상수 변수 제거
model <- train(x = X, y = Y, method="glm", preProcess = c("zv", "medianImpute", "center", "scale", "pca"))
print(min(model$results$RMSE))

3.3.2 거의 상수 변수 제거

"zv" 인자 대신에 "nzv" 인자를 넣어도 좋지만, 명시적으로 nearZeroVar() 함수로 거의 상수 변수를 추출하여 이를 예측변수에 넣어 예측모형을 개발한다.

#-------------------------------------------------
# 05.02. 거의 상수 변수: 분산이 거의 0에 가까움
#-------------------------------------------------
# 임의 결측값 채워넣기
set.seed(777)
data("BostonHousing")
BostonHousing[sample(1:nrow(BostonHousing), 10), "crim"] <- NA
# 예측모형: 설명변수와 종속변수 분리
Y <- BostonHousing$medv
X <- BostonHousing[, 1:13]

## 거의 상수 변수 정의: freqCut
remove <- nearZeroVar(X, freqCut = 20/5, saveMetrics=TRUE)

X_small <- X[ , setdiff(names(X), remove)]

## 모형적합: 상수 변수 제거
model <- train(x = X_small, y = Y, method="glm", preProcess = c("medianImpute", "center", "scale", "pca"))
print(min(model$results$RMSE))
[1] 5.174473

3.3.3 중복변수 제거

주성분 분석(Principal Component Analysis, PCA)을 통해 서로 상관관계가 높은 변수를 제거하여 다공선성(Collinearity) 문제를 해결하여 예측모형의 안정성을 높인다. preProcess = c("pca") 를 넣어주면 변수간에 상관관계가 높은 문제에 대한 전처리를 수행하게 된다.

#----------------------------------------------
# 05.03. 중복변수 제거: PCA
#----------------------------------------------
# 임의 결측값 채워넣기
set.seed(777)
data("BostonHousing")
BostonHousing[sample(1:nrow(BostonHousing), 10), "crim"] <- NA
# 예측모형: 설명변수와 종속변수 분리
Y <- BostonHousing$medv
X <- BostonHousing[, 1:13]

## 모형적합: 상수 변수 제거
model <- train(x = X, y = Y, method="glm", preProcess = c("medianImpute", "center", "scale", "pca"))
print(min(model$results$RMSE))
[1] 5.174473

4 recipes 팩키지

recipes 팩키지는 피처공학 데이터 전처를 위한 요리법을 작성하는 recipe() 단계와 재료를 손질하는 준비 prep(), 마지막으로 모형에 적합시킬 수 있는 형태 데이터로 변환시킨 bake() 함수를 적용하는 3단계로 나눠진다.

4.1 recipes 친해지기

먼저, recipes 팩키지 3가지 단계를 익숙해지기 위해서 단계별로 recipe()prep()bake()를 진행해보자.

library(tidymodels)

data("BostonHousing")

splits <- initial_split(data = BostonHousing, prop = 0.8, strata = 'medv')
  
price_rec <- recipe(medv ~ . , data = training(splits)) %>% 
  step_log(medv, base = 10)

price_rec
Data Recipe

Inputs:

      role #variables
   outcome          1
 predictor         13

Operations:

Log transformation on medv

prep() 단계를 통해 재료준비를 끝마쳐둔다.

price_rec_prep <- price_rec %>% 
  prep(training = training(splits))

price_rec_prep
Data Recipe

Inputs:

      role #variables
   outcome          1
 predictor         13

Training data contained 407 data points and no missing data.

Operations:

Log transformation on medv [trained]

마지막으로 기계학습을 위한 데이터를 준비해보자. bake() 함수를 통해 medv 변수가 로그 변환된 것을 확인할 수 있다.

price_rec_prep %>% 
  bake(new_data = NULL)
# A tibble: 407 x 14
      crim    zn indus chas    nox    rm   age   dis   rad   tax ptratio     b
     <dbl> <dbl> <dbl> <fct> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>   <dbl> <dbl>
 1 0.00632  18    2.31 0     0.538  6.58  65.2  4.09     1   296    15.3  397.
 2 0.0273    0    7.07 0     0.469  6.42  78.9  4.97     2   242    17.8  397.
 3 0.0273    0    7.07 0     0.469  7.18  61.1  4.97     2   242    17.8  393.
 4 0.0324    0    2.18 0     0.458  7.00  45.8  6.06     3   222    18.7  395.
 5 0.0690    0    2.18 0     0.458  7.15  54.2  6.06     3   222    18.7  397.
 6 0.0298    0    2.18 0     0.458  6.43  58.7  6.06     3   222    18.7  394.
 7 0.145    12.5  7.87 0     0.524  6.17  96.1  5.95     5   311    15.2  397.
 8 0.211    12.5  7.87 0     0.524  5.63 100    6.08     5   311    15.2  387.
 9 0.170    12.5  7.87 0     0.524  6.00  85.9  6.59     5   311    15.2  387.
10 0.225    12.5  7.87 0     0.524  6.38  94.3  6.35     5   311    15.2  393.
# ... with 397 more rows, and 2 more variables: lstat <dbl>, medv <dbl>

동일한 recipe를 시험 데이터에도 적용시켜보자. 요리법은 동일하고 데이터만 바꿔주면 되기 때문에 시험데이터 testing(splits)을 구워주면 기계학습 예측모형의 성능을 평가하는데 필요한 만반의 준비가 완료되었다.

price_rec_prep %>% 
  bake(new_data = testing(splits))
# A tibble: 99 x 14
     crim    zn indus chas    nox    rm   age   dis   rad   tax ptratio     b
    <dbl> <dbl> <dbl> <fct> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>   <dbl> <dbl>
 1 0.0883  12.5  7.87 0     0.524  6.01  66.6  5.56     5   311    15.2  396.
 2 0.117   12.5  7.87 0     0.524  6.01  82.9  6.23     5   311    15.2  397.
 3 0.630    0    8.14 0     0.538  5.95  61.8  4.71     4   307    21    397.
 4 0.784    0    8.14 0     0.538  5.99  81.7  4.26     4   307    21    387.
 5 0.803    0    8.14 0     0.538  5.46  36.6  3.80     4   307    21    289.
 6 1.25     0    8.14 0     0.538  5.57  98.1  3.80     4   307    21    377.
 7 0.956    0    8.14 0     0.538  6.05  88.8  4.45     4   307    21    306.
 8 1.15     0    8.14 0     0.538  5.70  95    3.79     4   307    21    359.
 9 1.61     0    8.14 0     0.538  6.10  96.9  3.76     4   307    21    248.
10 0.0276  75    2.95 0     0.428  6.60  21.8  5.40     3   252    18.3  396.
# ... with 89 more rows, and 2 more variables: lstat <dbl>, medv <dbl>

4.2 숫자형과 범주형 변수7

chas 변수를 제외한 나머지 변수는 모두 숫자형이라 각 변수 자료유형에 맞춰 적절한 변수 변환작업을 수행한다. 범주형 변수와 숫자형 변수의 변수변환 작업에 차이가 있고 상황에 맞춰 적절히 조합시켜 활용한다. step_*() 단계별 적용 방식은 다음과 같다.

  1. Impute
  2. Individual transformations for skewness and other issues
  3. Discretize (if needed and if you have no other choice)
  4. Create dummy variables
  5. Create interactions
  6. Normalization steps (center, scale, range, etc)
  7. Multivariate transformation (e.g. PCA, spatial sign, etc)
house_rec <- recipe(medv ~ . , data = training(splits)) %>% 
  step_log(medv, base = 10) %>% 
  step_normalize(all_numeric()) %>% 
  step_corr(all_numeric(), -all_outcomes(), threshold = 0.9) %>%
  step_dummy(all_nominal(), -all_outcomes())

house_rec %>% 
  prep(training = training(splits)) %>% 
  bake(new_data = testing(splits))
# A tibble: 99 x 13
     crim     zn  indus    nox     rm     age    dis    rad ptratio        b
    <dbl>  <dbl>  <dbl>  <dbl>  <dbl>   <dbl>  <dbl>  <dbl>   <dbl>    <dbl>
 1 -0.404  0.104 -0.488 -0.281 -0.409 -0.0829 0.939  -0.507 -1.48    0.412  
 2 -0.400  0.104 -0.488 -0.281 -0.414  0.502  1.27   -0.507 -1.48    0.427  
 3 -0.338 -0.463 -0.448 -0.161 -0.500 -0.255  0.511  -0.624  1.21    0.427  
 4 -0.319 -0.463 -0.448 -0.161 -0.441  0.459  0.285  -0.624  1.21    0.311  
 5 -0.317 -0.463 -0.448 -0.161 -1.20  -1.16   0.0533 -0.624  1.21   -0.807  
 6 -0.262 -0.463 -0.448 -0.161 -1.04   1.05   0.0540 -0.624  1.21    0.195  
 7 -0.298 -0.463 -0.448 -0.161 -0.359  0.714  0.383  -0.624  1.21   -0.608  
 8 -0.274 -0.463 -0.448 -0.161 -0.854  0.936  0.0486 -0.624  1.21   -0.00892
 9 -0.218 -0.463 -0.448 -0.161 -0.289  1.00   0.0348 -0.624  1.21   -1.27   
10 -0.411  2.94  -1.20  -1.10   0.424 -1.69   0.859  -0.740 -0.0415  0.413  
# ... with 89 more rows, and 3 more variables: lstat <dbl>, medv <dbl>,
#   chas_X1 <dbl>
 

데이터 과학자 이광춘 저작

kwangchun.lee.7@gmail.com