1 이항 회귀모형 1

이항 회귀모형은 로지스틱(Logistic) 회귀모형이라고 부르기도 하고 일반화선형모형(Generalized Linear Model, GLM)의 이항분포를 따르는 모형의 일부로 해석하기도 한다.

이항 회귀모형은 D.R.Cox가 1958년에 제안한 확률 모델로서 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 흔히 사용되는 통계모형이다. 2

\[\hat{y} = \frac{e^{\hat{\beta_0} + \hat{\beta_1} x_1}}{1+e^{\hat{\beta_0} + \hat{\beta_1} x_1}}\]

선형회귀 모형과 비교하여 뚜렷한 차이점은 다음과 같이 두가지가 있다.

  • 이항형인 데이터에 적용하였을 때 종속 변수 y의 결과가 범위[0,1]로 제한.
  • 종속 변수가 이진적이기 때문에 조건부 확률(\(P(y│x)\))의 분포가 정규분포 대신 이항 분포를 따름.

2 이항 회귀 시각화 3

3 각 측도별 시각화

이항회귀모형을 구축한 후에 모형을 기술하는 단계로 접어들게 되면 세가지 방법이 동원된다.

  • 확률: \(\hat{y} = \frac{e^{\hat{\beta_0} + \hat{\beta_1} x_1}}{1+e^{\hat{\beta_0} + \hat{\beta_1} x_1}}\)
  • 오즈: \(\text{odds}(\hat{y}) = \frac{\hat{y}}{1-\hat{y}} = {exp^{\hat{\beta_0} + \hat{\beta_1} x_1}}\)
  • 로그 오즈: \(\text{logit}(\hat{y}) = \text{log}\frac{\hat{y}}{1-\hat{y}} = = \hat{\beta_0} + \hat{\beta_1} x_1\)

종속변수를 확률, 오즈, 로그오즈를 두게 되면 각자 장단점이 있다. 예를 들어, 확률은 결과값을 해석하기 쉽지만, 설명변수가 어떤 메커니즘을 통해 확률에 영향을 미치는지 난해하다.

3.1 확률

가장 먼저 확률을 모형을 기술하는데 사용한다.


Call:
glm(formula = card ~ reports + income + owner + selfemp + dependents + 
    majorcards, family = "binomial", data = cc_mod_df, maxit = 1000)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.8499   0.2743   0.4686   0.5860   2.5230  

Coefficients:
            Estimate Std. Error z value             Pr(>|z|)    
(Intercept)  0.61005    0.22687   2.689             0.007166 ** 
reports     -1.37330    0.11485 -11.958 < 0.0000000000000002 ***
income       0.24747    0.06362   3.890             0.000100 ***
owneryes     0.76447    0.18076   4.229            0.0000235 ***
selfempyes  -0.68196    0.28211  -2.417             0.015635 *  
dependents  -0.25630    0.06724  -3.811             0.000138 ***
majorcards   0.62885    0.18578   3.385             0.000712 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1404.6  on 1318  degrees of freedom
Residual deviance: 1041.5  on 1312  degrees of freedom
AIC: 1055.5

Number of Fisher Scoring iterations: 6

3.4 오즈비 (Odds Ratio)

선형회귀에서도 관심있는 것이 독립변수 한단위가 증가할 때 종속변수가 얼마나 변화하는지 관심이 크다. 이항 회귀분석에서 이런 욕구를 충족시킬 수 있는 것이 오즈비를 활용하는 방법이다.

\[\text{오즈비(OR)} = \frac{\text{오즈}(\hat{y}|x+1)} {\text{오즈}(\hat{y}|x)} = \frac{exp^{\hat{\beta_0} + \hat{\beta_1} (x_1 + 1)}} {exp^{\hat{\beta_0} + \hat{\beta_1} x_1}} = exp(\beta_1)\]

                    OR      2.5 %     97.5 %
(Intercept)  0.6100538  0.1652720  1.0557593
reports     -1.3733044 -1.6076547 -1.1573091
income       0.2474687  0.1266975  0.3761975
owneryes     0.7644701  0.4145744  1.1240480
selfempyes  -0.6819577 -1.2239891 -0.1142868
dependents  -0.2562969 -0.3877760 -0.1236635
majorcards   0.6288470  0.2606239  0.9898468
                   OR     2.5 %    97.5 %
(Intercept) 1.8405304 1.1797140 2.8741566
reports     0.2532687 0.2003570 0.3143309
income      1.2807792 1.1350736 1.4567348
owneryes    2.1478559 1.5137263 3.0772860
selfempyes  0.5056262 0.2940548 0.8920021
dependents  0.7739121 0.6785643 0.8836771
majorcards  1.8754470 1.2977395 2.6908222