판별분석(Discriminant Analysis)은 통계학과 기계 학습에서 관찰된 데이터를 여러 클래스 중 하나로 분류하는 기법입니다. 주로 판별분석은 다음 두 가지 주요 방법으로 나뉩니다: 선형 판별분석(LDA, Linear Discriminant Analysis)과 이차 판별분석(QDA, Quadratic Discriminant Analysis).
\(\)1. 선형 판별분석 (LDA)
LDA는 클래스 간의 변별력을 최대화하는 선형 결합을 찾는 기법입니다. 주로 다음과 같은 절차로 수행됩니다:
- 가정: 각 클래스는 공통된 공분산 행렬을 가지며, 각 클래스의 데이터는 다변량 정규분포를 따릅니다.
- 목표: 두 클래스 간의 평균 벡터 차이를 최대화하고, 동시에 각 클래스 내부의 분산을 최소화하는 방향을 찾습니다.
- 수식: 판별 함수는 \( y = \mathbf{w}^T \mathbf{x} + c \)의 형태를 가집니다. 여기서 \(\mathbf{w}\)는 선형 판별 계수 벡터이고, \(\mathbf{x}\)는 입력 벡터입니다.
- 판별 기준: 새로운 데이터 포인트를 이 판별 함수에 넣어서 판별 값을 계산한 후, 그 값을 기반으로 클래스를 예측합니다.
2. 이차 판별분석 (QDA)
QDA는 각 클래스가 서로 다른 공분산 행렬을 가질 수 있다는 점에서 LDA와 다릅니다. 이는 더 복잡한 모델을 허용하지만, 더 많은 매개변수를 추정해야 하므로 데이터가 충분히 많아야 유용합니다.
- 가정: 각 클래스는 서로 다른 공분산 행렬을 가지며, 각 클래스의 데이터는 다변량 정규분포를 따릅니다.
- 목표: 클래스별로 다른 공분산 행렬을 고려하여 판별 함수를 만듭니다.
- 수식: 판별 함수는 선형이 아닌 이차식(2차식) 형태를 가집니다.
- 판별 기준: 새로운 데이터 포인트를 각 클래스의 판별 함수에 넣어서 가장 높은 값을 가지는 클래스로 분류합니다.
주요 차이점
- 모델 복잡도: LDA는 선형 모델을 사용하므로 상대적으로 단순합니다. QDA는 이차 모델을 사용하므로 더 복잡합니다.
- 가정: LDA는 모든 클래스가 동일한 공분산 행렬을 가지는 것으로 가정하는 반면, QDA는 각 클래스가 서로 다른 공분산 행렬을 가질 수 있다고 가정합니다.
- 데이터 요구 사항: QDA는 더 많은 매개변수를 추정해야 하므로 더 많은 데이터가 필요합니다.

위 그림은 선형 판별분석(LDA)을 사용하여 두 클래스의 데이터를 분류한 결과를 시각화한 것입니다.
- 배경의 색상: 각 클래스의 결정 경계를 나타냅니다. 각 색상 영역은 LDA가 해당 영역에 속하는 데이터 포인트를 특정 클래스로 분류하는 것을 보여줍니다.
- 데이터 포인트: 원으로 표시된 점들은 두 클래스의 실제 데이터 포인트입니다. 다른 색상으로 표시되어 서로 다른 클래스를 나타냅니다.
- 결정 경계: 두 클래스 간의 경계는 선형으로 그려집니다. 이 선은 LDA가 클래스 간의 분리를 최대화하기 위해 찾은 선형 결합을 나타냅니다.
LDA는 주어진 데이터에 대해 클래스 간의 차이를 최대화하는 선형 결합을 찾으며, 이는 주로 각 클래스의 평균과 공통된 공분산을 기반으로 합니다.
응용 사례
- 의료 진단: 특정 질병 여부를 예측하는 데 사용할 수 있습니다.
- 마케팅: 고객의 구매 행동을 기반으로 고객 세그먼트를 분류하는 데 사용됩니다.
- 금융: 대출 신청자의 신용 등급을 예측하는 데 사용될 수 있습니다.
판별분석은 분류 문제에서 효과적인 기법으로, 특히 데이터가 정규분포를 따르는 경우에 유용합니다. 모델 선택은 데이터의 특성과 문제의 복잡성에 따라 달라집니다.