1 모형을 기술하는 방법

데이터에 기반한 통계 모형을 기술하는 방식은 세가지로 나눌 수 있다.

  1. 수학을 동원
  2. 기하학(Geometry)을 동원한 시각화
  3. 컴퓨터 구문(Syntatic)

1.1 수학

수학을 동원하여 모형을 기술하는 방식은 수식으로 모형 아키텍쳐를 정의하고 수학과 다른 확률분포도 함께 정의하고 나서, 추정해애되는 회귀계수 등 모수를 표기한다.

  • 방정식 : \(y = beta_0 + beta_1 x_1 + beta_2 x_2 + \epsilon\)
  • 잔차 : \(\epsilon ~ N(0, \sigma_{\epsilon}\)
  • 회귀계수 : \(beta_0 , beta_1 , beta_2\)

1.2 기하학적인 시각화

기하적인 방법을 동원하여 모형을 기술하는 방식은 데이터를 ggplot 등을 동원하여 시각적으로 데이터와 함께 모형을 기술한다.

1.3 컴퓨터 출력결과

데이터를 수학/통계적인 모형으로 적합시킨 결과를 컴퓨터 출력 결과물로 기술한다.


Call:
lm(formula = hwy ~ displ + factor(am), data = mpg_df)

Residuals:
    Min      1Q  Median      3Q     Max 
-7.8130 -2.2109 -0.2639  2.0964 14.5517 

Coefficients:
                 Estimate Std. Error t value            Pr(>|t|)    
(Intercept)       35.0933     0.8096  43.348 <0.0000000000000002 ***
displ             -3.4412     0.2016 -17.070 <0.0000000000000002 ***
factor(am)Manual   0.8933     0.5531   1.615               0.108    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.823 on 231 degrees of freedom
Multiple R-squared:  0.5914,    Adjusted R-squared:  0.5879 
F-statistic: 167.2 on 2 and 231 DF,  p-value: < 0.00000000000000022

2 예제 데이터 - 연비 데이터셋(mpg)

1999년과 10년후 두시점에 대해서 미국에서 시판되는 자동차 차종에 대한 연비를 측정한 데이터가 ggplot mpg 데이터로 제공되고 있다. 범주형 변수와 연속형 변수가 다수 섞여있어 회귀분석 모형을 시각화하는데 적합한 것으로 판단되어 예제 데이터로 사용한다.

3 모형을 시각화하는 구분

관심을 결과값(\(y\))를 예측하고 기술하는데 다양한 숫자형, 범주형 변수를 동원할 수 있다. 사람이 인지할 수 있는 한정된 차원에 이를 시각적으로 모형을 기술하는 방법은 다음과 같다.

  • 숫자형 변수 1 개 + 범부형 변수 1 개 → 평행선(Parallel Line)
  • 숫자형 변수 1 개 + 범부형 변수 2 개 → 작은창(Facet) + 평행선(Parallel Line)
  • 숫자형 변수 2 개 → 평면(Plane)
  • 숫자형 변수 2 개 + 범부형 변수 1 개 → 평행 평면(parallel Plane)

3.1 숫자형 변수 1 개 + 범부형 변수 1 개

hwy는 고속도로 연비로 자동차를 운전하면서 관심을 갖는 중요한 측정변수 중 하나다. 갤런당 몇 마일을 갈 수 있는지 나타나는 지표로 우리나라에서는 리터당 킬로미터에 대응된다.

  • 종속변수: hwy
  • 예측변수/독립변수: disp, am
    • disp: 연속형 변수
    • am: 범주형 변수

\[\text{연비(hwy)} = \beta_0 + \beta_1 \text{배기량(disp)} + \beta_2 \text{변속기(am)} + \epsilon\]

3.2 숫자형 변수 1 개 + 범부형 변수 2 개

3.1.에서 다룬 숫자형 변수 1 개 + 범부형 변수 1 개 모형에서 범주형 변수를 하나 더 추가한다.

  • 종속변수: hwy
  • 예측변수/독립변수: disp, am, drv
    • disp: 연속형 변수
    • am: 범주형 변수
    • drv: 구동방식

\[\text{연비(hwy)} = \beta_0 + \beta_1 \text{배기량(disp)} + \beta_2 \text{변속기(am)} + \beta_3 \text{구동방식(drv)} + \epsilon\]

3.3 숫자형 변수 2 개 + 범부형 변수 0 개 1

숫자형 변수 1 개 + 범부형 변수 조합에서 숫자형 변수만 2개인 경우를 상정해본다.

  • 종속변수: hwy
  • 예측변수/독립변수: disp, cyl
    • disp: 연속형 변수
    • cyl: 실린더 갯수

\[\text{연비(hwy)} = \beta_0 + \beta_1 \text{배기량(disp)} + \beta_2 \text{실린더 갯수(cyl)} + \epsilon\]

3.3.2 3차원 공간

연속형 변수가 총 3가지로 3차원 공간에 데이터를 표현하고 이를 평면으로 시각화한다.

3.4 숫자형 변수 2 개 + 범부형 변수 1 개

숫자형 변수 2 개 + 범부형 변수 1 개 모형을 시각화한다.

  • 종속변수: hwy
  • 예측변수/독립변수: disp, cyl, am
    • disp: 연속형 변수
    • cyl: 실린더 갯수
    • am: 범주형 변수

\[\text{연비(hwy)} = \beta_0 + \beta_1 \text{배기량(disp)} + \beta_2 \text{변속기(am)} + \beta_3 \text{실린더 갯수(cyl)} + \epsilon\]