딥러닝 모델을 학습시킬 때 오버피팅을 방지하고, 모델 정규화를 위해 training data와 validation data를 분리하여 사용하곤 합니다.
통상 training accuracy가 validation accuracy보다 높은 경우가 많지만, 아래 그림과 같이 training accuracy보다 validation accuracy가 더 높은 상황이 발생합니다.
이 같은 상황은 대부분 모델 학습 과정에 적용한 데이터 증강으로 인해 모델 판별의 난이도가 증가하여 일어납니다.
이 경우 training accuracy와 validation accuracy 간의 간극을 좁히기 위해서 두 가지 전략을 취해볼 수 있습니다.
- 모델 학습에 적용된 data augmentation을 validation 과정에도 적용한다.
→ 이 경우 validation accuracy가 상대적으로 낮아지게 되면서, 두 accuracy 간 차이가 감소합니다. - 모델 학습에 적용된 data augmentation을 제거한다.
→ 이 경우 training accuracy가 상대적으로 높아지게 되면서, 두 accuracy 간 차이가 감소합니다.
그러나 위에 제시된 두 극단의 방안 중 반드시 한 가지를 택해야 하는 것은 아닙니다.
모델 학습에 적용한 data augmentation을 검토해보고, 데이터 셋과 적용 도메인에 적합한지를 판단하여 data augmentation의 수준(예: 이미지의 회전 각도 등)을 조절하면 보다 이상적인 learning graph를 얻을 수 있습니다.