잔차분석(Residual analysis)

잔차분석(Residual analysis)은 통계 모델의 적합성을 평가하고 모델의 가정들이 충족되었는지를 검토하는 중요한 과정입니다. 잔차는 실제 관측값과 모델이 예측한 값 사이의 차이를 의미합니다. 이 잔차들을 분석하여 모델의 적절성을 평가하는 것이 잔차분석의 주요 목적입니다.

\(\)

잔차분석의 주요 단계와 방법:

1.잔차의 정의:

  • 잔차는 각 관측값 \( y_i \) 와 모델이 예측한 값 \( \hat{y}_i \) 사이의 차이로 정의됩니다. 보통 잔차는 \( e_i = y_i – \hat{y}_i \) 로 계산됩니다.

2.잔차의 분포 확인:

  • 잔차가 정규 분포를 따르는지 확인하는 것이 중요합니다. 대부분의 통계 모델은 잔차가 정규 분포를 따를 때 가정이 만족된다고 가정하고 있습니다. 이를 확인하기 위해 히스토그램, Q-Q 플롯(Quantile-Quantile plot) 등을 사용합니다.

3.잔차의 독립성:

  • 잔차는 서로 독립적이어야 합니다. 시계열 데이터의 경우 시간에 따른 자기상관(autocorrelation)이 존재하지 않아야 하며, 다중 회귀 분석에서는 예측 변수들 간의 상관관계가 없어야 합니다. 이를 확인하기 위해 잔차의 자기상관 함수(ACF, Autocorrelation Function)를 그려보거나 더해진 변수를 확인할 수 있습니다.

4.잔차의 등분산성:

  • 잔차는 모든 예측값에서 동일한 분산을 가져야 합니다(등분산성). 이를 확인하기 위해 잔차의 퍼짐파형이 일정하게 유지되는지를 시각적으로 검토하거나, 잔차 대 예측값 그래프를 사용합니다.

5.이상치나 영향점 식별:

  • 잔차 분석은 이상치나 영향점을 식별하는 데도 도움을 줍니다. 이상치는 모델 적합성에 큰 영향을 미칠 수 있으며, 이를 제거하거나 수정할 필요가 있습니다.

6.모델의 적합성 평가:

  • 위의 단계들을 통해 모델이 데이터에 적합한지를 평가합니다. 모델이 잘 적합되었다면, 잔차는 정규성, 독립성, 등분산성을 만족하며 이상치나 영향점이 적어야 합니다.

잔차분석은 통계 모델링 과정에서 중요한 단계로, 모델의 신뢰성과 예측 능력을 높이는 데 기여하며, 이 과정을 통해 모델이 만족스러운 결과를 도출하는지를 확인할 수 있습니다. 즉, 잔차분석은 통계 모델의 적합성을 평가하고 모델의 가정들이 충족되는지 확인하는 과정이다.

1. 잔차의 시각화

히스토그램

  • 목적: 잔차가 정규 분포를 따르는지 확인합니다.
  • 방법: 잔차를 히스토그램으로 나타내어 정규분포 모양과 비교합니다.

Q-Q 플롯 (Quantile-Quantile Plot)

  • 목적: 잔차의 정규성을 시각적으로 평가합니다.
  • 방법: 잔차의 분포와 정규 분포의 이론적 분포를 비교하는 그래프입니다. 점들이 직선에 가깝게 분포하면 정규성을 따릅니다.

잔차 대 예측값 그래프 (Residuals vs Fitted Values Plot)

  • 목적: 잔차의 등분산성과 패턴을 확인합니다.
  • 방법: 잔차를 예측값에 대해 플로팅하여 잔차의 패턴을 확인합니다. 랜덤하게 분포되어 있어야 합니다.

2. 잔차의 독립성 검사

자기상관 함수 (Autocorrelation Function, ACF)

  • 목적: 잔차들 간의 독립성을 평가합니다.
  • 방법: ACF 그래프를 사용하여 잔차들이 시간에 따라 자기상관이 있는지 확인합니다. ACF 값이 0에 가까우면 독립적입니다.

더빈-왓슨 통계량 (Durbin-Watson Statistic)

  • 목적: 잔차의 자기상관을 정량적으로 평가합니다.
  • 방법: 더빈-왓슨 통계량을 계산하여 2에 가까우면 자기상관이 없음을 의미합니다.

3. 잔차의 등분산성 검사

브레슈-파간 테스트 (Breusch-Pagan Test)

  • 목적: 잔차의 분산이 일정한지 확인합니다.
  • 방법: 잔차의 제곱을 종속 변수로 하여 회귀 분석을 수행합니다. 유의미한 결과가 나오면 이분산성이 존재합니다.

스케일-로케이션 플롯 (Scale-Location Plot)

  • 목적: 잔차의 등분산성을 시각적으로 평가합니다.
  • 방법: 잔차의 제곱근을 예측값에 대해 플로팅하여 분산의 패턴을 확인합니다.

4. 이상치와 영향점 식별

쿡의 거리 (Cook’s Distance)

  • 목적: 특정 관측값이 모델에 얼마나 영향을 미치는지 평가합니다.
  • 방법: 각 관측값의 쿡의 거리를 계산하여 1보다 크면 영향점으로 간주합니다.

레버리지 값 (Leverage)

  • 목적: 각 관측값이 예측값에 얼마나 영향을 미치는지 평가합니다.
  • 방법: 레버리지 값을 계산하여 평균 레버리지 값(2(k+1)/n)보다 현저히 큰 값을 이상치로 간주합니다.

5. 잔차 분석을 통한 모델 개선

  • 잔차분석 결과를 바탕으로 모델의 문제점을 파악하고, 필요한 경우 변환(Transformation), 추가 변수 도입, 혹은 모델 재구성 등을 통해 모델을 개선합니다.

잔차분석은 모델의 적합성을 평가하고, 모델이 데이터에 대해 올바른 추론을 제공하는지 확인하는 중요한 단계입니다. 위의 방법들을 사용하여 잔차를 분석하고, 필요한 경우 모델을 수정하여 더욱 신뢰성 있는 결과를 도출할 수 있습니다.

1.잔차 대 적합값 그래프 (Residuals vs Fitted Values Plot):

    • 이 그래프는 잔차와 적합값 사이의 관계를 보여줍니다. 빨간 선은 저평선(LOWESS) 추정선을 나타내며, 잔차가 랜덤하게 분포하는지 확인하는 데 도움이 됩니다. 이상적인 경우, 잔차는 적합값에 대해 특정 패턴 없이 고르게 분포되어야 합니다.
    • 목적: 잔차의 분포를 확인하고 등분산성 여부를 평가합니다.
    • 해석: 잔차가 랜덤하게 분포되어야 하며, 특정한 패턴이 없어야 합니다. 그림에서 잔차들이 빨간 점선을 중심으로 고르게 분포되어 있으면 모델의 등분산성 가정이 충족됩니다.

    2.Q-Q 플롯 (Q-Q Plot):

      • 이 그래프는 잔차가 정규 분포를 따르는지 시각적으로 평가합니다. 잔차가 정규 분포를 따르는 경우, 점들이 직선에 가깝게 분포합니다.
      • 목적: 잔차의 정규성을 평가합니다.
      • 해석: 잔차가 정규 분포를 따를 경우, 점들이 대각선에 가깝게 분포해야 합니다. 점들이 대각선에서 많이 벗어나지 않으면 잔차가 정규 분포를 따르는 것으로 간주할 수 있습니다.

      3.스케일-로케이션 플롯 (Scale-Location Plot):

        • 이 그래프는 잔차의 등분산성을 평가합니다. 잔차의 제곱근의 절대값을 적합값에 대해 플로팅합니다. 점들이 일정한 패턴 없이 고르게 분포한다면 잔차의 분산이 일정하다는 것을 의미합니다.
        • 목적: 잔차의 등분산성을 시각적으로 평가합니다.
        • 해석: 잔차의 제곱근을 적합값에 대해 플로팅하여 분포를 확인합니다. 잔차의 분산이 일정하면 점들이 랜덤하게 분포되어야 합니다.

        4.잔차 대 레버리지 플롯 (Residuals vs Leverage Plot):

          • 이 그래프는 잔차와 레버리지 값의 관계를 보여주며, 영향력 있는 관측값을 식별하는 데 도움이 됩니다. 영향력 있는 점들은 일반적으로 그래프의 오른쪽 위나 아래에 위치합니다.
          • 목적: 영향점과 이상치를 식별합니다.
          • 해석: 쿡의 거리(Cook’s Distance)가 큰 점들은 영향력이 큰 관측값을 나타냅니다. 이러한 점들은 모델의 적합성에 큰 영향을 미칠 수 있습니다.

          이러한 그래프들을 통해 모델의 적합성을 평가하고, 모델의 가정이 충족되는지 확인할 수 있습니다. 잔차분석을 통해 모델을 개선하거나 필요한 조치를 취할 수 있습니다.

          댓글 달기

          이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

          위로 스크롤