우당탕탕 IT 연구원

[머신러닝 기초] 1. Confusion Matrix 란?

IT_LEE_BLOOMY — Wed, 14 Jan 2026 16:56:24 +0900

confusion matrix

1. confusion matrix란?

오늘은 머신러닝의 예측 결과를 종합적으로 보여주는 confusion matrix에 대해 알아보려고 합니다.
아래 그림은 confusion matrix의 기본적인 구조를 나타냅니다.

confusion matrix

confusion matrix에서 row 방향은 머신러닝 모델이 예측한 클래스를 의미합니다.
column 방향은 실제 데이터의 클래스를 의미합니다.

실제로 질환이 없다고 진단된 환자의 수는 A와 C의 합입니다.
실제로 질환이 있다고 진단된 환자의 수는 B와 D의 합입니다.
머신러닝이 질환이 없다고 예측한 환자의 수는 A와 B의 합입니다.
머신러닝이 질환이 있다고 예측한 환자의 수는 C와 D의 합입니다.

이러한 값들을 기반으로 머신러닝 모델의 예측 성능을 정량적으로 평가할 수 있습니다.

2. true positive, true negative, false positive, false negative

성능 지표를 이해하기 전에 먼저 true positive, true negative, false positive, false negative의 개념을 정리합니다.

positive case는 분석자가 관심을 가지는 대상입니다.
질병 진단 문제에서는 질병이 있는 환자가 positive case입니다.
negative case는 질병이 없는 환자입니다.

true는 모델의 예측이 실제 값과 일치한 경우를 의미합니다.
false는 모델의 예측이 실제 값과 일치하지 않은 경우를 의미합니다.
positive와 negative는 모델이 예측한 클래스를 기준으로 합니다.

true positive는 질병이 있는 환자를 질병이 있다고 예측한 경우입니다.
true negative는 질병이 없는 환자를 질병이 없다고 예측한 경우입니다.
false positive는 질병이 없는 환자를 질병이 있다고 예측한 경우입니다.
false negative는 질병이 있는 환자를 질병이 없다고 예측한 경우입니다.

false positive rate는 Type I error라고 부릅니다.
false negative rate는 Type II error라고 부릅니다.
이 용어들은 통계학에서 귀무가설을 기각하거나 유지하는 개념에서 유래합니다.
귀무가설은 negative case로 이해할 수 있습니다.

3. 정확도, Accuracy

첫 번째 성능 지표는 Accuracy입니다.

Accuracy는 전체 샘플 중에서 모델이 올바르게 분류한 비율을 의미합니다.
TP와 TN의 합을 전체 샘플 수로 나눈 값입니다.
정확도는 모델 성능을 가장 직관적으로 보여주는 지표입니다.

하지만 클래스 비율이 불균형한 경우에는 정확도의 신뢰도가 떨어집니다.
예를 들어 전체 100개 중 90개가 클래스 1인 데이터가 있다고 가정합니다.
모든 샘플을 클래스 1로 예측해도 정확도는 90%가 됩니다.
이 경우 모델의 실제 분류 능력을 정확도가 제대로 반영하지 못합니다.
따라서 정확도만으로 모델 성능을 판단하는 것은 바람직하지 않습니다.
Accuracy와 misclassification error는 서로 보완적인 관계에 있습니다.

정확도, Accuracy

4. 민감도, Sensitivity

두 번째 성능 지표는 Sensitivity입니다.

Sensitivity는 실제로 질병이 있는 환자 중에서 질병이 있다고 예측한 비율입니다.
TP를 TP와 FN의 합으로 나눈 값입니다.
민감도는 positive case를 얼마나 잘 검출했는지를 나타냅니다.
질병 진단 문제에서는 매우 중요한 지표입니다.
Sensitivity는 true positive rate 또는 recall이라고도 부릅니다.

민감도, Sensitivity

5. 특이도, Specificity

세 번째 성능 지표는 Specificity입니다.

Specificity는 실제로 질병이 없는 환자 중에서 질병이 없다고 예측한 비율입니다.
TN을 TN과 FP의 합으로 나눈 값입니다.
특이도는 negative case를 얼마나 정확히 예측했는지를 보여줍니다.
질병이 없는 사람을 불필요하게 질병 환자로 분류하지 않는 능력을 의미합니다.
Specificity는 true negative rate 또는 selectivity라고도 합니다.

특이도, Specificity

6. 정밀도, Precision

네 번째 성능 지표는 Precision입니다.

Precision은 질병이 있다고 예측한 환자 중 실제로 질병이 있는 환자의 비율입니다.
TP를 TP와 FP의 합으로 나눈 값입니다.
정밀도는 positive로 예측한 결과의 신뢰도를 의미합니다.
negative case는 고려하지 않고 positive 예측 결과에만 집중합니다.
Precision은 positive predictive value, 즉 PPV라고도 합니다.

confusion matrix는 단순한 표이지만 다양한 성능 지표의 기반이 됩니다.
문제의 특성에 따라 어떤 지표를 중시할지 결정해야 합니다.
의료 진단과 같이 놓치면 위험한 문제에서는 Sensitivity가 중요합니다.
불필요한 오탐이 문제인 경우에는 Specificity와 Precision이 중요합니다.

[기초 통계] 교차검증 방법 LOOCV(Leave-One-Out Cross Validation)이란?

IT_LEE_BLOOMY — Tue, 13 Jan 2026 13:27:57 +0900

교차검증 LOOCV 란?

1. LOOCV 개념

LOOCV는 Leave-One-Out Cross Validation의 약자입니다.
교차검증 방법 중 하나로 데이터가 적은 상황에서 모델 성능을 평가할 때 사용하는 방식입니다.

좀 더 자세히 설명 하자면 5가지 방법으로 나눌 수 있습니다.

LOOCV는 전체 데이터 개수를 N이라고 할 때, 한 번에 하나의 데이터만 검증용으로 사용합니다.
나머지 N-1개의 데이터를 학습용으로 사용합니다.
이 과정을 데이터 개수만큼 반복합니다.
모든 데이터는 정확히 한 번씩 검증 데이터로 사용됩니다.
각 반복에서 계산된 성능 값을 평균 내어 최종 성능으로 사용합니다.

좀더 이해하기 쉽게 아래 그림을 보면서 예를 들어보겠습니다.

총 n개의 케이스가 있는 표본에서 1번째 케이스를 제외합니다.
2번째부터 n번째 케이스까지를 사용하여 model 1을 만듭니다.
제외한 1번째 케이스를 model 1에 입력하여 test error 1을 측정합니다.

다음으로 2번째 케이스를 제외합니다.
1번째와 3번째부터 n번째 케이스를 사용하여 model 2를 만듭니다.
제외한 2번째 케이스를 model 2에 입력하여 test error 2를 측정합니다.

이와 같은 과정을 반복합니다.
매 반복마다 서로 다른 하나의 케이스만 검증 데이터로 사용합니다.
n번째 케이스가 제외될 때까지 총 n번 반복합니다.

이 과정을 통해 n개의 모델이 생성됩니다.
각 모델마다 하나의 test error가 계산됩니다.
결과적으로 n개의 test error가 산출됩니다.

이 n개의 test error에 대해 평균을 계산합니다.
이 평균값이 최종 성능 평가 지표가 됩니다.
해당 값이 낮을수록 예측 모델의 성능이 좋음을 의미합니다.

이 방식을 사용하는 이유는 아래와 같습니다.

핵심은 학습 데이터 손실을 최소화하는 데 있습니다.
일반적인 K-Fold 교차검증은 학습에 사용되지 않는 데이터가 항상 존재합니다.
LOOCV는 매 반복마다 거의 전체 데이터를 학습에 사용합니다.
이로 인해 데이터 활용 효율이 매우 높습니다.

LOOCV는 이론적으로 K-Fold 교차검증의 특수한 형태입니다.
K 값이 데이터 개수와 같은 경우입니다.
따라서 K-Fold의 개념을 그대로 확장한 방식입니다.
차이점은 검증 데이터가 항상 하나라는 점입니다.

2. LOOCV

LOOCV의 절차는 단순합니다.

한번 위에 5가지 순서의 방법대로 따라가 보겠습니다.
첫 번째 샘플을 검증용으로 분리합니다.
나머지 데이터로 모델을 학습합니다.
해당 샘플에 대한 예측 결과를 계산합니다.
다음 샘플로 이동하여 동일한 과정을 반복합니다.
모든 샘플에 대해 이 과정을 수행합니다.

LOOCV 구조 출처 : dataaspirant.com

3. LOOCV 장점

LOOCV의 장점은 편향이 낮은 성능 추정을 제공한다는 점입니다.
학습 데이터가 거의 전체이기 때문에 전체 데이터로 학습했을 때의 성능과 유사한 결과를 냅니다.
특히 회귀 문제에서 안정적인 성능 추정에 사용됩니다.
데이터 수집 비용이 큰 연구에서 유용합니다.

4. LOOCV 단점

하지만 LOOCV는 큰 단점이 있습니다.

계산 비용이 매우 크다는 것입니다.
데이터 개수만큼 모델 학습을 반복해야 합니다.
모델이 복잡할수록 계산 시간은 급격히 증가합니다.
딥러닝 모델에는 현실적으로 적용하기 어렵습니다.

또 다른 단점은 분산이 높다는 점입니다.
검증 데이터가 하나이기 때문에 특정 샘플의 영향이 큽니다.
이상치가 존재할 경우 성능 추정이 불안정해질 수 있습니다.
분류 문제에서는 클래스 불균형의 영향을 크게 받습니다.

LOOCV는 모든 상황에서 적합한 방법은 아닙니다.

데이터가 매우 적고 모델이 가벼운 경우에 적합합니다.
데이터가 많거나 학습 비용이 큰 경우에는 K-Fold 교차검증이 더 적합합니다.
연구 목적에 따라 선택해야 하는 방법입니다.

5. LOOCV 정리

LOOCV는 데이터 활용 효율을 극대화한 교차검증 방식입니다.
이론적으로 타당하지만 계산 비용과 분산이라는 한계를 가집니다.
따라서 데이터 규모와 모델 복잡도를 고려하여 사용해야 합니다.