판별 분석(LDA : Linear Discriminate Analysis)

판별분석(Discriminant Analysis)은 통계학과 기계 학습에서 관찰된 데이터를 여러 클래스 중 하나로 분류하는 기법입니다. 주로 판별분석은 다음 두 가지 주요 방법으로 나뉩니다: 선형 판별분석(LDA, Linear Discriminant Analysis)과 이차 판별분석(QDA, Quadratic Discriminant Analysis).

\(\)

1. 선형 판별분석 (LDA)

LDA는 클래스 간의 변별력을 최대화하는 선형 결합을 찾는 기법입니다. 주로 다음과 같은 절차로 수행됩니다:

가정: 각 클래스는 공통된 공분산 행렬을 가지며, 각 클래스의 데이터는 다변량 정규분포를 따릅니다.
목표: 두 클래스 간의 평균 벡터 차이를 최대화하고, 동시에 각 클래스 내부의 분산을 최소화하는 방향을 찾습니다.
수식: 판별 함수는 \( y = \mathbf{w}^T \mathbf{x} + c \)의 형태를 가집니다. 여기서 \(\mathbf{w}\)는 선형 판별 계수 벡터이고, \(\mathbf{x}\)는 입력 벡터입니다.
판별 기준: 새로운 데이터 포인트를 이 판별 함수에 넣어서 판별 값을 계산한 후, 그 값을 기반으로 클래스를 예측합니다.

2. 이차 판별분석 (QDA)

QDA는 각 클래스가 서로 다른 공분산 행렬을 가질 수 있다는 점에서 LDA와 다릅니다. 이는 더 복잡한 모델을 허용하지만, 더 많은 매개변수를 추정해야 하므로 데이터가 충분히 많아야 유용합니다.

가정: 각 클래스는 서로 다른 공분산 행렬을 가지며, 각 클래스의 데이터는 다변량 정규분포를 따릅니다.
목표: 클래스별로 다른 공분산 행렬을 고려하여 판별 함수를 만듭니다.
수식: 판별 함수는 선형이 아닌 이차식(2차식) 형태를 가집니다.
판별 기준: 새로운 데이터 포인트를 각 클래스의 판별 함수에 넣어서 가장 높은 값을 가지는 클래스로 분류합니다.

주요 차이점

모델 복잡도: LDA는 선형 모델을 사용하므로 상대적으로 단순합니다. QDA는 이차 모델을 사용하므로 더 복잡합니다.
가정: LDA는 모든 클래스가 동일한 공분산 행렬을 가지는 것으로 가정하는 반면, QDA는 각 클래스가 서로 다른 공분산 행렬을 가질 수 있다고 가정합니다.
데이터 요구 사항: QDA는 더 많은 매개변수를 추정해야 하므로 더 많은 데이터가 필요합니다.

위 그림은 선형 판별분석(LDA)을 사용하여 두 클래스의 데이터를 분류한 결과를 시각화한 것입니다.

배경의 색상: 각 클래스의 결정 경계를 나타냅니다. 각 색상 영역은 LDA가 해당 영역에 속하는 데이터 포인트를 특정 클래스로 분류하는 것을 보여줍니다.
데이터 포인트: 원으로 표시된 점들은 두 클래스의 실제 데이터 포인트입니다. 다른 색상으로 표시되어 서로 다른 클래스를 나타냅니다.
결정 경계: 두 클래스 간의 경계는 선형으로 그려집니다. 이 선은 LDA가 클래스 간의 분리를 최대화하기 위해 찾은 선형 결합을 나타냅니다.

LDA는 주어진 데이터에 대해 클래스 간의 차이를 최대화하는 선형 결합을 찾으며, 이는 주로 각 클래스의 평균과 공통된 공분산을 기반으로 합니다.

응용 사례

의료 진단: 특정 질병 여부를 예측하는 데 사용할 수 있습니다.
마케팅: 고객의 구매 행동을 기반으로 고객 세그먼트를 분류하는 데 사용됩니다.
금융: 대출 신청자의 신용 등급을 예측하는 데 사용될 수 있습니다.

판별분석은 분류 문제에서 효과적인 기법으로, 특히 데이터가 정규분포를 따르는 경우에 유용합니다. 모델 선택은 데이터의 특성과 문제의 복잡성에 따라 달라집니다.

1. 선형 판별분석 (LDA)

2. 이차 판별분석 (QDA)

주요 차이점

응용 사례

관련 게시물

댓글 달기 댓글 취소