Deep learning/모델 구현

13. 학습 관련 기술들 (5) - 적절한 하이퍼파라미터 값 찾기

jwjwvison 2021. 4. 23. 22:48

이 포스팅은 밑바닥부터 시작하는 딥러닝을 공부하고 정리한것 입니다.


 신경망에는 하이퍼파라미터가 다수 등장한다. 여기서 말하는 하이퍼파라미터는 각 층의 뉴런 수, 배치 크기, 매개변수 갱신 시의 학습률과 가중치 감소 등이다. 이러한 하이퍼파라미터 값을 적절히 설정하지 않으면 모델의 성능이 크게 떨어지기도 한다. 하이퍼파라미터의 값은 매우 중요하지만 그 값을 결정하기까지는 일반적으로 많은 시행착오를 겪는다. 이번 절에서는 하이퍼파라미터의 값을 최대한 효율적으로 탐색하는 방법을 설명한다.

 

 

1. 검증 데이터

 하이퍼파라미터의 성능을 평가할 때는 시험 데이터를 사용해서 안 된다. 왜냐하면 시험 데이터를 사용하여 하이퍼파라미터를 조정하면 하이퍼파라미터 값이 시험 데이터에 오버피팅 되기 때문이다. 하이퍼파라미터 조정용 데이터를 일반적으로 검증 데이터(validation data) 라고 부른다. 하이퍼파라미터의 적절성을 평가하는 데이터인 셈이다.

 

2. 하이퍼파라미터 최적화

 하이퍼파라미터를 최적화할 때의 핵심은 하이퍼파라미터의 최적 값이 존재하는 범위를 조금씩 줄어간다는 것이다. 하이퍼파라미터의 범위는 대략적으로 지정하는 것이 효과적이다. 실제로도 0.001에서 1,000 사이와 같이 10의 거듭제곱 단위로 범위를 지정한다. 이를 로그스케일로 지정한다고 한다.

 

 

결론