본문 바로가기
AI/Study Note

[기계학습 - 오일석] 1장. 소개(2)

by je0nsye0n 2024. 2. 21.

1-5. 모델 선택

1-5-1. 과소적합과 과잉적합

- 과소적합(Underfitting) : 모델이 훈련 세트의 규칙을 제대로 찾지 못해 모델의 성능이 낮게 나오는 현상

- 과대적합(Overfitting) :  모델이 훈련 세트에 과하게 적합한 상태가 되어 일반성이 떨어지는 현상

> 훈련 세트에서 규칙을 찾지 못하면 모델의 성능이 낮게 나오고, 규칙을 과하게 찾게 되면 이후의 새로운 테스트 데이터가 들어올 경우의 성능이 떨어지게 된다. 따라서 적절한 용량의 모델을 선택하는 작업이 매우 중요하다.

과소적합과 과대적합

 

1-5-2. 편향과 분산

- 편향 : 학습 데이터에 대한 정확도(실제 값에서 멀어진 척도)

- 분산 : 데이터가 얼마나 퍼져 있는 가를 나타내는 척도

 

1-5-3. 모델 선택 알고리즘

<검증집합을 이용한 모델 선택>

: 훈련집합으로 모델을 학습하고, 테스트집합으로 모델의 일반화 능력을 측정하였다. 좋은 모델을 알고 있다면 문제없지만, 그렇지 않다면 모델집합이 여러 모델을 독립적으로 학습시킨 후 그중 가장 좋은 모델을 선택해야 한다. 이때 모델을 비교할 때 사용할 별도의 데이터 검증집합을 통해 모델의 성능을 측정하는 방법이다.

 

 

<교차검증에 의한 모델 선택>

: 검증집합의 경우 많은 양의 데이터가 필요하다. 이는 엄청난 비용이 들기 때문에 현실적으로 어렵다. 따라서 이러한 상황에서는 교차검증을 이용하면 효과적이다. 데이터를 k개의 집합으로 나누고 k-1개로 학습시키고, 1개로 성능을 평가한다. 이 과정을 k번 반복하는 것이 교차검증을 이용한 모델 선택이다.

 

 

<부트스트랩을 이용한 모델 선택>