1-5. 모델 선택
1-5-1. 과소적합과 과잉적합
- 과소적합(Underfitting) : 모델이 훈련 세트의 규칙을 제대로 찾지 못해 모델의 성능이 낮게 나오는 현상
- 과대적합(Overfitting) : 모델이 훈련 세트에 과하게 적합한 상태가 되어 일반성이 떨어지는 현상
> 훈련 세트에서 규칙을 찾지 못하면 모델의 성능이 낮게 나오고, 규칙을 과하게 찾게 되면 이후의 새로운 테스트 데이터가 들어올 경우의 성능이 떨어지게 된다. 따라서 적절한 용량의 모델을 선택하는 작업이 매우 중요하다.
1-5-2. 편향과 분산
- 편향 : 학습 데이터에 대한 정확도(실제 값에서 멀어진 척도)
- 분산 : 데이터가 얼마나 퍼져 있는 가를 나타내는 척도
1-5-3. 모델 선택 알고리즘
<검증집합을 이용한 모델 선택>
: 훈련집합으로 모델을 학습하고, 테스트집합으로 모델의 일반화 능력을 측정하였다. 좋은 모델을 알고 있다면 문제없지만, 그렇지 않다면 모델집합이 여러 모델을 독립적으로 학습시킨 후 그중 가장 좋은 모델을 선택해야 한다. 이때 모델을 비교할 때 사용할 별도의 데이터 검증집합을 통해 모델의 성능을 측정하는 방법이다.
<교차검증에 의한 모델 선택>
: 검증집합의 경우 많은 양의 데이터가 필요하다. 이는 엄청난 비용이 들기 때문에 현실적으로 어렵다. 따라서 이러한 상황에서는 교차검증을 이용하면 효과적이다. 데이터를 k개의 집합으로 나누고 k-1개로 학습시키고, 1개로 성능을 평가한다. 이 과정을 k번 반복하는 것이 교차검증을 이용한 모델 선택이다.
<부트스트랩을 이용한 모델 선택>
'AI > Study Note' 카테고리의 다른 글
[기계학습 - 오일석] 5장. 딥러닝 최적화 (2) | 2024.05.02 |
---|---|
[기계학습 - 오일석] 4장. 딥러닝 기초 (3) | 2024.05.01 |
[기계학습 - 오일석] 3장. 다층 퍼셉트론 (0) | 2024.02.22 |
[기계학습 - 오일석] 2장. 기계학습과 수학 : 최적화 (1) | 2024.02.21 |
[기계학습 - 오일석] 1장. 소개(1) (1) | 2024.02.15 |