✅ Overfitting (과적합)
- 정의: 모델이 훈련 데이터에 과도하게 적합되어, 새로운 데이터(테스트 데이터)에 대한 예측 성능이 떨어지는 현상
- 비유: 문제집만 달달 외운 학생이 실제 시험에서 처음 보는 문제를 풀지 못하는 것
- 원인:
- 모델이 너무 복잡함
- 훈련 데이터에 노이즈(잡음)가 많음
- 훈련 데이터를 너무 오래 학습함
- 특징:
- 훈련 데이터 성능은 매우 좋음
- 테스트 데이터 성능은 낮음
- 해결 방법:
- 모델 복잡도 줄이기
- 정규화(L1, L2) 적용
- 드롭아웃(dropout) 사용
- 학습 조기 종료(early stopping)
- 더 많은 데이터 확보
✅ Underfitting (과소적합)
- 정의: 모델이 훈련 데이터의 패턴조차 제대로 학습하지 못한 상태
- 비유: 공부를 거의 안 한 학생이 문제를 아예 못 푸는 것
- 원인:
- 모델이 너무 단순함
- 학습이 충분히 이루어지지 않음
- 중요한 피처(변수)가 누락됨
- 특징:
- 훈련 데이터 성능도 낮음
- 테스트 데이터 성능 역시 낮음
- 해결 방법:
- 더 복잡한 모델 사용
- 학습 시간(에폭) 증가
- 더 많은 피처 추가
- 정규화 강도를 낮춤
📊 비교 정리
Overfitting (과적합) Underfitting (과소적합)
훈련 성능 | 높음 | 낮음 |
테스트 성능 | 낮음 | 낮음 |
모델 복잡도 | 너무 복잡함 | 너무 단순함 |
주요 원인 | 과도한 학습, 복잡한 모델 | 부족한 학습, 단순한 모델 |
비유 | 문제집만 외운 학생 | 공부를 안 한 학생 |
해결 방법 | 정규화, 드롭아웃, 단순화 | 학습 증가, 복잡도 증가 |
※ 이 개념은 모델이 실제 환경에서 얼마나 일반화(generalization)를 잘하느냐와 직결되는 중요한 이슈입니다.
모델 성능을 높이려면 항상 두 극단 사이에서 균형을 잡는 것이 핵심입니다.
'AI ( Artificial Intelligence )' 카테고리의 다른 글
[ 머신러닝 - 머신러닝에서 다차원 배열을 1차원 배열로 바꾸는 이유 ] (0) | 2025.04.08 |
---|---|
[ 앙상블 ( 랜덤포레스트, 그래디언트 부스팅, XGBoost ) ] (1) | 2025.04.08 |
토크나이저(Tokenize) (0) | 2025.04.05 |
Lexical 검색과 Semantic 검색 (0) | 2025.03.30 |
Streaming module (0) | 2024.10.31 |