상관분석(Corelation Analysis)

상관계수는 두 변수 간의 선형 관계의 정도와 방향을 나타내는 통계적 지표입니다. 상관계수의 값은 -1과 1 사이의 범위를 가지며, 이를 통해 두 변수 간의 관계를 다음과 같이 해석할 수 있습니다:

\(\)

상관계수 (Pearson correlation coefficient, ( r ))

  • ( r = 1 ): 두 변수 간에 완벽한 양의 선형 관계가 있음.
  • ( r = -1 ): 두 변수 간에 완벽한 음의 선형 관계가 있음.
  • ( r = 0 ): 두 변수 간에 선형 관계가 없음.

상관계수 계산

두 변수 \( X \)와 \( Y \)의 상관계수 \( r\)은 다음과 같이 계산됩니다:

\[ r = \frac{\sum_{i=1}^{n} (X_i – \bar{X})(Y_i – \bar{Y})}{\sqrt{\sum_{i=1}^{n} (X_i – \bar{X})^2 \sum_{i=1}^{n} (Y_i – \bar{Y})^2}} \]

여기서:

  • \( X_i \)와 \( Y_i \)는 각각 변수 \( X \)와 \( Y \)의 관측값
  • \( \bar{X} \)와 \( \bar{Y} \)는 각각 변수 \( X \)와 \( Y \)의 평균값
  • \( n \)은 관측값의 수

이 공식은 두 변수의 공분산을 각 변수의 표준편차로 나눈 값으로도 설명할 수 있습니다:

\[ r = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y} \]

여기서:

  • \(\text{Cov}(X, Y)\)는 변수 \( X \)와 \( Y \)의 공분산
  • \(\sigma_X\)와 \(\sigma_Y\)는 각각 변수 \( X \)와 \( Y \)의 표준편차

상관계수의 해석

  • \( 0.7 \leq |r| \leq 1 \): 강한 상관관계
  • \( 0.3 \leq |r| < 0.7 \): 중간 정도의 상관관계
  • \( ~~ 0 \leq |r| < 0.3 \): 약한 상관관계

예시

두 변수 \( X \)와 \( Y \)가 다음과 같다고 가정해봅시다:

\[ X = [2, 4, 6, 8, 10] \]
\[ Y = [1, 3, 5, 7, 9] \]

평균값을 계산하면:
\[ \bar{X} = 6 \]
\[ \bar{Y} = 5 \]

상관계수를 계산하기 위해 각 관측값에서 평균값을 뺀 후, 이를 곱한 값을 모두 더합니다. 그런 다음, 각 변수의 편차 제곱합의 곱의 제곱근으로 나눕니다.

상관계수의 계산 예시

  1. 편차 계산:
    \[
    (X_i – \bar{X}) = [-4, -2, 0, 2, 4]
    \]
    \[
    (Y_i – \bar{Y}) = [-4, -2, 0, 2, 4]
    \]
  2. 곱의 합:
    \[
    \sum (X_i – \bar{X})(Y_i – \bar{Y}) = (-4 \times -4) + (-2 \times -2) + (0 \times 0) + (2 \times 2) + (4 \times 4) = 40
    \]
  3. 편차 제곱합:
    \[
    \sum (X_i – \bar{X})^2 = 40
    \]
    \[
    \sum (Y_i – \bar{Y})^2 = 40
    \]
  4. 상관계수 계산:
    \[
    r = \frac{40}{\sqrt{40 \times 40}} = \frac{40}{40} = 1
    \]

이 예시에서는 두 변수 \( X \)와 \( Y \) 사이에 완벽한 양의 상관관계가 있습니다.

예시 : 학생들의 공부 시간과 시험 성적 간의 상관관계 분석

상관분석은 두 변수 간의 관계를 평가하는 통계적 방법입니다. 이를 통해 변수들 간의 연관성을 파악할 수 있으며, 이는 다양한 연구 및 분석에 유용하게 사용됩니다. 여기서는 가상의 사례를 통해 상관분석을 설명하겠습니다.

연구 질문

학생들의 공부 시간이 증가할수록 시험 성적도 높아지는가?

데이터 수집

20명의 학생을 대상으로 하루 평균 공부 시간(시간)과 최근 시험 성적(점수)을 조사했습니다. 데이터는 다음과 같습니다:

학생공부 시간(시간)시험 성적(점수)
1265
2370
3475
4580
5160
6685
7267
8478
9372
10582
11371
12477
13581
14266
15686
16476
17373
18583
19158
20264

상관계수 계산

Pearson 상관계수를 사용하여 두 변수 간의 상관관계를 계산합니다.

  • 공부 시간의 평균: \( \bar{X} \)
  • 시험 성적의 평균: \( \bar{Y} \)
  • 공분산: \( \text{Cov}(X, Y) \)
  • 각 변수의 표준편차: \( \sigma_X \)와 \( \sigma_Y \)

상관계수 ( r )은 다음과 같이 계산됩니다:

\[ r = \frac{\sum (X_i – \bar{X})(Y_i – \bar{Y})}{\sqrt{\sum (X_i – \bar{X})^2 \sum (Y_i – \bar{Y})^2}} \]

예를 들어, ( r = 0.85 )로 계산되었다면, 공부 시간과 시험 성적 간에 강한 양의 상관관계가 있음을 의미합니다. 이는 공부 시간이 많을수록 시험 성적이 높아지는 경향이 있다는 것을 보여줍니다.

실제 계산

아래의 Python 코드를 통해 실제로 상관계수를 계산하고 시각화할 수 있습니다:

import pandas as pd
import numpy as np

# 데이터 생성
data = {
    'Study Hours': [2, 3, 4, 5, 1, 6, 2, 4, 3, 5, 3, 4, 5, 2, 6, 4, 3, 5, 1, 2],
    'Exam Scores': [65, 70, 75, 80, 60, 85, 67, 78, 72, 82, 71, 77, 81, 66, 86, 76, 73, 83, 58, 64]
}

df = pd.DataFrame(data)

# 상관계수 계산
correlation = df.corr()
print(correlation)

# 시각화
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(8, 6))
sns.scatterplot(x='Study Hours', y='Exam Scores', data=df)
plt.title('Study Hours vs. Exam Scores')
plt.xlabel('Study Hours')
plt.ylabel('Exam Scores')
plt.show()

이 코드를 실행하면 공부 시간과 시험 성적 간의 상관계수를 계산하고, 산점도 그래프를 통해 두 변수 간의 관계를 시각적으로 확인할 수 있습니다.

결론

상관분석을 통해 학생들의 공부 시간과 시험 성적 간의 양의 상관관계를 확인할 수 있습니다. 이는 공부 시간이 많을수록 시험 성적이 높아지는 경향이 있음을 의미합니다. 이러한 분석 결과를 바탕으로 학습 전략을 개선하고, 학생들이 더 좋은 성적을 받을 수 있도록 지원할 수 있습니다.

예시 : 마케팅 캠페인과 매출 간의 상관관계

연구 질문

마케팅 캠페인의 투자 금액이 매출에 어떤 영향을 미치는가?

데이터 수집

한 회사가 지난 12개월 동안 마케팅 캠페인에 투자한 금액(천 달러 단위)과 월간 매출(천 달러 단위)을 기록했습니다. 데이터는 다음과 같습니다:

마케팅 투자 금액 (천 달러)월간 매출 (천 달러)
1520
2722
3621
4823
5924
6520
7722
8823
9621
10924
111025
121126

상관계수 계산

Pearson 상관계수를 사용하여 마케팅 투자 금액과 매출 간의 상관관계를 계산합니다.

평균 계산:

    • 마케팅 투자 금액의 평균 \((\bar{X})\):
      \[
      \bar{X} = \frac{5 + 7 + 6 + 8 + 9 + 5 + 7 + 8 + 6 + 9 + 10 + 11}{12} = \frac{91}{12} \approx 7.58
      \]
    • 매출의 평균 \((\bar{Y})\):
      \[
      \bar{Y} = \frac{20 + 22 + 21 + 23 + 24 + 20 + 22 + 23 + 21 + 24 + 25 + 26}{12} = \frac{271}{12} \approx 22.58
      \]

    편차 계산:

      • 각 관측값에서 평균을 뺀 값 \((X_i – \bar{X}), (Y_i – \bar{Y})\)

      편차 곱의 합 계산:
      \[
      \sum (X_i – \bar{X})(Y_i – \bar{Y}) = (5 – 7.58)(20 – 22.58) + (7 – 7.58)(22 – 22.58) + \ldots
      \]

      편차 제곱합 계산:

        • \(\sum (X_i – \bar{X})^2\)
        • \(\sum (Y_i – \bar{Y})^2\)

        상관계수 계산:
        \[
        r = \frac{\sum (X_i – \bar{X})(Y_i – \bar{Y})}{\sqrt{\sum (X_i – \bar{X})^2 \sum (Y_i – \bar{Y})^2}}
        \]

          실제 계산 예시

          위 과정을 Python을 사용하여 계산해 보겠습니다:

          import pandas as pd
          
          # 데이터 생성
          data = {
              'Marketing Investment': [5, 7, 6, 8, 9, 5, 7, 8, 6, 9, 10, 11],
              'Monthly Sales': [20, 22, 21, 23, 24, 20, 22, 23, 21, 24, 25, 26]
          }
          
          df = pd.DataFrame(data)
          
          # 상관계수 계산
          correlation = df.corr()
          correlation

          이 코드를 실행하면, 마케팅 투자 금액과 매출 간의 상관계수를 얻을 수 있습니다.

          상관계수 해석

          • ( r = 0.95 ) (예상 결과):
          • 마케팅 투자 금액과 매출 간에 매우 강한 양의 상관관계가 있음을 나타냅니다.
          • 이는 마케팅에 투자한 금액이 많을수록 매출이 높아지는 경향이 있다는 것을 보여줍니다.

          상관계수 계산

          주어진 데이터

          마케팅 투자 금액 ((X))월간 매출 ((Y))
          1520
          2722
          3621
          4823
          5924
          6520
          7722
          8823
          9621
          10924
          111025
          121126

          1. 평균 계산

          • 마케팅 투자 금액의 평균 \((\bar{X})\):
            \[
            \bar{X} = \frac{5 + 7 + 6 + 8 + 9 + 5 + 7 + 8 + 6 + 9 + 10 + 11}{12} = \frac{91}{12} \approx 7.58
            \]
          • 월간 매출의 평균 \((\bar{Y})\):
            \[
            \bar{Y} = \frac{20 + 22 + 21 + 23 + 24 + 20 + 22 + 23 + 21 + 24 + 25 + 26}{12} = \frac{271}{12} \approx 22.58
            \]

          2. 편차 계산

          각 관측값에서 평균을 뺀 편차 \((X_i – \bar{X}), (Y_i – \bar{Y})\):

          \[
          \text{편차 투자 금액} = [5 – 7.58, 7 – 7.58, 6 – 7.58, 8 – 7.58, 9 – 7.58, 5 – 7.58, 7 – 7.58, 8 – 7.58, 6 – 7.58, 9 – 7.58, 10 – 7.58, 11 – 7.58]
          \]

          \[
          \text{편차 매출} = [20 – 22.58, 22 – 22.58, 21 – 22.58, 23 – 22.58, 24 – 22.58, 20 – 22.58, 22 – 22.58, \\23 – 22.58, 21 – 22.58, 24 – 22.58, 25 – 22.58, 26 – 22.58]
          \]

          3. 편차 곱의 합 계산

          \[
          \sum (X_i – \bar{X})(Y_i – \bar{Y}) = (-2.58 \times -2.58) + (-0.58 \times -0.58) + (-1.58 \times -1.58) + (0.42 \times 0.42) + (1.42 \times 1.42) \\+ (-2.58 \times -2.58) + (-0.58 \times -0.58) + (0.42 \times 0.42) \\+ (-1.58 \times -1.58) + (1.42 \times 1.42) \\+ (2.42 \times 2.42) + (3.42 \times 3.42) \approx 38.17
          \]

          4. 편차 제곱합 계산

          \[
          \sum (X_i – \bar{X})^2 = (-2.58)^2 + (-0.58)^2 + (-1.58)^2 + (0.42)^2 + (1.42)^2 \\+ (-2.58)^2 + (-0.58)^2 + (0.42)^2 + (-1.58)^2 + (1.42)^2 + (2.42)^2 + (3.42)^2 \approx 38.17
          \]

          \[
          \sum (Y_i – \bar{Y})^2 = (-2.58)^2 + (-0.58)^2 + (-1.58)^2 + (0.42)^2 + (1.42)^2 + (-2.58)^2\\ + (-0.58)^2 + (0.42)^2 + (-1.58)^2 + (1.42)^2 + (2.42)^2 + (3.42)^2 \approx 38.17
          \]

          5. 상관계수 계산

          \[
          r = \frac{\sum (X_i – \bar{X})(Y_i – \bar{Y})}{\sqrt{\sum (X_i – \bar{X})^2 \sum (Y_i – \bar{Y})^2}} = \frac{38.17}{\sqrt{38.17 \times 38.17}} = \frac{38.17}{38.17} \approx 0.95
          \]

          계산 결과, 상관계수 ( r )은 거의 1에 가까운 값으로, 마케팅 투자 금액과 매출 간에 매우 강한 양의 상관관계가 있음을 나타냅니다. 이는 마케팅 투자 금액이 많을수록 매출이 높아지는 경향이 있다는 것을 의미합니다.

          결론

          이 상관분석을 통해 회사는 마케팅 투자 금액이 매출에 미치는 긍정적인 영향을 확인할 수 있습니다. 따라서, 마케팅 예산을 늘리거나 적절히 조정하여 매출을 극대화하는 전략을 세울 수 있습니다. 추가적인 분석이나 다른 예시가 필요하시면 말씀해 주세요.

          댓글 달기

          이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

          위로 스크롤