5-1. 목적함수 : 교차 엔트로피와 로그우도
딥러닝에서 모델의 학습을 위해 사용하는 목적함수(또는 손실 함수)는 모델의 예측이 실제 데이터와 얼마나 잘 일치하는지를 측정한다. 교차 엔트로피와 로그우도는 이러한 목적함수 중에서 가장 널리 사용되는 두 가지이다. 이 두 함수는 모두 모델의 예측과 실제 데이터 레이블 사이의 불일치를 수치화한다.
5-1-1. 평균 제곱 오차(Mean Squared Error, MSE)
평균 제곱 오차(Mean Squared Error, MSE)는 많은 회귀 문제에서 효과적인 손실 함수로 사용되지만, 분류 문제에는 몇 가지 한계가 있다. 이러한 한계를 배경으로 교차 엔트로피 손실 함수의 장점을 이해할 수 있다.
MSE는 분류문제에서 예측 확률과 실제 레이블 사이의 확률적 관계를 직접적으로 모델링하지 않는다. 결과적으로 예측 확률이 실제 범주와 얼마나 잘 일치하는지에 대한 직관적인 정보를 제공하지 못 한다. 또한, 오류의 제곱을 사용하기 때문에 실제 레이블에서 멀어질 수록 그레이디언트가 작아지며, 이는 학습 속도를 저하시키는 문제를 일으킨다.
5-1-2. 교차 엔트로피
교차 엔트로피 손실은 주로 분류 문제, 특히 다중 클래스 분류 문제에서 사용된다. 이 함수는 모델이 예측한 확률 분포와 실제 레이블의 확률 분포 사이의 차이를 측정한다. 실제 레이블은 원-핫 인코딩 방식으로 표현되며, 모델의 예측은 소프트맥스 함수를 통해 확률로 변환된다.
교차 엔트로피 목적함수 :
따라서, 교차 엔트로피는 모델 출력을 확률로 해석하는 방식과 직접 연결된다. 교차 엔트로피의 손실 함수는 모델이 실제 레이블에 해당하는 클래스의 확률을 최대화하도록 유도한다. 또한, 잘못된 분류된 데이터에 대해 더 큰 그레이디언트를 제공한다. 예를 들어, 실제 레이블에 대한 예측 확률이 낮은 경우, 교차 엔트로피 손실은 큰 오류값을 생성하며 이는 신속한 학습 수정을 유도한다. 이러한 특성은 초기 학습단계에서 더욱 빠른 수렴을 가능하게 한다.
5-1-3. 로그우도
로그우도 함수는 확률 모델의 매개변수가 주어진 데이터를 얼마나 잘 설명하는지를 측정한다. 회귀 모델이나 확률 모델에서 주로 사용되며, 모델의 매개변수를 조정하여 관측된 데이터의 확률을 최대화하는 방향으로 학습한다. 로그우도를 최대화하는 것은 곧 로그우도의 음수를 최소화하는 것과 같으므로, 많은 경우 최대 로그우도 추정(Maximum Likelihood Estimation, MLE)은 다음과 같이 음의 로그우도(Negative Log-Likelihood, NLL)를 최소화하는 문제로 표현된다. 모든 출력 노드값을 사용하는 MSE나 교차 엔트로피와 달리 oy라는 하나의 출력값을 사용한다.
5-2. 성능향상을 위한 방법
앞서 계속해서 등장하였던 개념인 스토캐스틱 경사 하강법(Stochastic Gradient Descent, SGD)은 딥러닝에서 널리 사용되는 최적화 방법 중 하나이다. SGD의 성능을 향상시키기 위해 다양한 전처리 방법, 가중치 초기화 전략, 그리고 학습 과정을 개선하는 기술들이 개발되었다. 이러한 기술들은 모델의 수렴 속도를 높이고, 더 나은 성능을 달성하는 데 도움을 준다.
- 전처리 : 정규화와 표준화를 사용함으로써 입력 데이터를 정규화하거나 표준화하는 것은 SGD의 효율을 크게 향상시킨다. 정규화는 데이터를 0과 1 사이의 범위로 조정하고, 표준화는 평균을 0, 표준편차를 1로 조정한다. 이러한 전처리는 특성 간의 스케일 차이를 줄여 최적화 과정에서의 안정성과 수렴 속도를 개선한다.
- 가중치 초기화 : 입력 데이터를 정규화하거나 표준화하는 것은 SGD의 효율을 크게 향상시킨다. 정규화는 데이터를 0과 1 사이의 범위로 조정하고, 표준화는 평균을 0, 표준편차를 1로 조정한다. 이러한 전처리는 특성 간의 스케일 차이를 줄여 최적화 과정에서의 안정성과 수렴 속도를 개선한다.
- 모멘텀 : SGD에 모멘텀을 추가하는 것은 이전 그라디언트의 일부를 현재 업데이트에 포함시켜줌으로써 보다 안정적이고 빠르게 최적점에 도달하게 해준다. 모멘텀은 로컬 미니멈이나 진동 문제를 완화시키는 데 효과적이다.
- 적응적 학습률 : Adam, Adagrad, RMSprop과 같은 적응적 학습률 방법들은 각 매개변수에 대해 학습률을 동적으로 조정한다. 예를 들어, Adam은 모멘텀과 RMSprop의 이점을 결합하고, 자주 업데이트되는 매개변수의 학습률을 줄이면서 드물게 업데이트되는 매개변수의 학습률을 높인다.
- 활성함수 : 다양한 활성화 함수는 네트워크가 다양한 비선형 패턴을 학습할 수 있도록 한다. ReLU는 음수를 0으로 처리하여 희소성을 제공하고, tanh는 출력 범위가 -1에서 1로 중심이 0에 맞춰져 있어 초기 학습에서 유리하다.
- 배치 정규화 : 이 기법은 각 배치의 출력을 정규화함으로써 학습 과정을 안정화하고 학습 속도를 높인다. 배치 정규화는 각 층의 입력을 평균 0, 분산 1로 정규화하여 내부 공변량 변화 문제를 줄인다.
5-3. 규제 기법
5-3-1. 규제의 필요성과 원리
규제(Regularization)는 머신러닝과 딥러닝 모델을 훈련할 때 과적합(Overfitting)을 방지하고, 모델의 일반화 능력을 향상시키기 위해 사용되는 기술이다. 과적합은 모델이 훈련 데이터에는 매우 잘 맞지만, 새로운 또는 본 적 없는 데이터에 대해서는 성능이 저하되는 현상을 말한다. 규제는 이러한 과적합을 줄이기 위해 모델의 복잡성에 제약을 가하는 방법이다. 규제의 필요성은 아래와 같이 정리할 수 있다.
1. 과적합 방지 : 고용량의 모델, 특히 매개변수가 많은 딥러닝 모델은 훈련 데이터를 거의 완벽하게 학습할 수 있는 능력이 있다. 이 경우, 모델은 데이터의 잡음까지 학습할 수 있으며, 이는 테스트 데이터나 실제 상황에서의 성능 저하로 이어진다.
2. 일반화 향상 : 규제를 사용하면 모델이 훈련 데이터의 특정 샘플이나 노이즈에 덜 민감하게 되어, 다양한 데이터에 대한 처리 능력 즉, 일반화 능력이 향상된다.
3. 학습 안정성 : 규제를 사용하면 모델이 훈련 데이터의 특정 샘플이나 노이즈에 덜 민감하게 되어, 다양한 데이터에 대한 처리 능력 즉, 일반화 능력이 향상된다.
5-3-2. 규제 기법
앞서 설명하였듯, 규제 기법은 모델의 일반화 능력을 향상시키고 과적합을 방지하기 위해 사용된다. 본 절에서는 가중치 벌칙, 조기 멈춤, 데이터 확대, 드롭아웃, 앙상블 기법 등 다양한 규제 방법들을 살펴본다. 이러한 규제 기법들은 모델의 성능을 최적화하고, 실제 세계 데이터에 대한 모델의 일반화 능력을 개선하는데 중요한 역할을 한다.
- 가중치 벌칙 : 모델의 가중치가 너무 큰 값을 갖지 않도록 제한하는 방법이다. 크게 L1 규제(라쏘)와 L2 규제(릿지)로 나뉜다. L1 규제는 가중치의 절대값에 비례하는 벌칙을 부과하며, 이는 중요하지 않은 특성의 가중치를 0으로 만들어 특성 선택 역할을 한다. L2 규제는 가중치의 제곱에 비례하는 벌칙을 부과하여 모든 가중치를 작게 유지하며, 이는 모델의 복잡성을 줄이는 데 도움을 준다.
- 조기 멈춤(Early Stopping) : 학습 과정에서 검증 세트의 성능이 개선되지 않을 때 학습을 조기에 종료하는 방법이다. 이는 과적합을 방지하며, 최적의 모델 상태를 유지할 수 있도록 돕는다. 학습 과정에서 검증 오류가 일정 기간 동안 개선되지 않으면 학습을 멈추고, 그 시점의 모델을 최종 모델로 선택한다.
- 데이터 확대(Data Augmentation) : 주어진 훈련 데이터를 인위적으로 확장하여 데이터의 다양성을 늘리는 기법이다. 이미지 데이터의 경우 회전, 반전, 크기 조정, 색상 변화 등을 적용할 수 있다. 이는 모델이 더 다양한 패턴을 학습하게 하여 일반화 성능을 개선한다.
- 드롭아웃(Dropout) : 훈련 과정에서 신경망의 일부 뉴런을 임의로 활성화하지 않고 비활성화하는 기법이다. 이는 네트워크가 일부 특성에만 과도하게 의존하는 것을 방지하고, 뉴런들이 더 독립적으로 유용한 특성을 학습하도록 만든다. 드롭아웃은 각 훈련 단계에서 무작위로 선택된 뉴런을 제외시키므로 모델이 과적합되는 것을 막아준다.
- 앙상블 기법(Ensemble Methods) : 여러 개별 모델의 예측을 결합하여 최종 예측을 만드는 방법이다. 앙상블에는 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking) 등이 포함된다. 앙상블 기법은 개별 모델의 오류를 상쇄시키고, 전체적으로 더 안정적이고 정확한 예측을 제공한다. 일반적으로 앙상블은 모델의 분산을 줄이거나 편향을 균형잡는 데 도움을 주어 성능을 향상시킨다.
'AI > Study Note' 카테고리의 다른 글
[기계학습 - 오일석] 7장. 준지도 학습과 전이 학습 (0) | 2024.06.18 |
---|---|
[기계학습 - 오일석] 6장. 비지도 학습 (1) | 2024.06.18 |
[기계학습 - 오일석] 4장. 딥러닝 기초 (3) | 2024.05.01 |
[기계학습 - 오일석] 3장. 다층 퍼셉트론 (0) | 2024.02.22 |
[기계학습 - 오일석] 2장. 기계학습과 수학 : 최적화 (1) | 2024.02.21 |