더빈-왓슨 통계량(Durbin-Watson statistic)은 회귀 분석에서 잔차의 자기상관(autocorrelation)을 검정하는 데 사용되는 통계량입니다. 자기상관이란 잔차들이 서로 독립적이지 않고, 순서에 따라 상관관계를 가지는 경우를 말합니다. 이는 회귀 모델의 가정 중 하나인 잔차의 독립성을 위반하는지를 평가하는 데 중요합니다.
더빈-왓슨 통계량의 정의
더빈-왓슨 통계량 ( d )는 다음과 같이 계산됩니다:
\[ d = \frac{\sum_{t=2}^{n} (e_t – e_{t-1})^2}{\sum_{t=1}^{n} e_t^2} \]
여기서:
- \( e_t \)는 t번째 관측값의 잔차(residual)입니다.
- \( n\ )은 관측값의 총 개수입니다.
더빈-왓슨 통계량의 값 해석
더빈-왓슨 통계량 \( d \)의 값은 0에서 4 사이입니다.
- d ≈ 2: 잔차들 간에 자기상관이 없음을 의미합니다.
- d < 2: 잔차들 간에 양의 자기상관이 있음을 의미합니다. (잔차들이 서로 비슷한 경향을 보임)
- d > 2: 잔차들 간에 음의 자기상관이 있음을 의미합니다. (잔차들이 번갈아 가며 다른 경향을 보임)
더빈-왓슨 통계량의 임계값
더빈-왓슨 통계량의 정확한 해석을 위해서는 임계값을 참조해야 합니다. 임계값은 표본 크기와 독립 변수의 개수에 따라 다릅니다. 일반적으로 다음과 같은 범위를 사용하여 자기상관을 판별합니다:
- 0 < d < d_L: 양의 자기상관이 존재함
- d_L < d < d_U: 결과가 불확실함
- d_U < d < 4 – d_U: 자기상관이 없음
- 4 – d_U < d < 4 – d_L: 결과가 불확실함
- 4 – d_L < d < 4: 음의 자기상관이 존재함
여기서 ( d_L )과 ( d_U )는 각각 하한과 상한 임계값을 의미합니다.
예제
예를 들어, 단순 회귀 모델을 통해 도출된 잔차들로 더빈-왓슨 통계량을 계산했다고 가정합니다. 계산된 더빈-왓슨 통계량 ( d ) 값이 1.8이라면, 이는 잔차들 간에 큰 자기상관이 없음을 의미하지만, 약간의 양의 자기상관이 있을 수 있음을 시사합니다. 이를 더 명확히 하기 위해 임계값 표를 참조하여 해당 결과가 어떤지 확인할 필요가 있습니다.
요약
더빈-왓슨 통계량은 회귀 분석의 잔차가 독립적인지를 평가하는 중요한 도구입니다. 이를 통해 모델의 가정이 충족되는지 확인하고, 필요시 모델을 개선하여 보다 신뢰성 있는 결과를 도출할 수 있습니다.