Deep learning/이론(hands on machine learning)

9. 학습률, 배치 크기

jwjwvison 2021. 6. 2. 23:46

1. 학습률

 일반적으로 최적의 학습률은 최대 학습률의 절반 정도이다. 좋은 학습률을 찾는 한 가지 방법은 매우 낮은 학습률(예를 들면 1e-5)에서 시작해서 점진적으로 매우 큰 학습률(10)까지 수백 번 반복하여 모델을 훈련하는 것이다. 반복마다 일정한 값을 학습률에 곱한다. (예를 들면 1e-5 부터 10 까지 exp(log(10^6)/500)를 500번 반복 하여 곱한다). 

 

2. 옵티마이저

 고전적인 평범한 미니배치 경사 하강법보다 더 좋은 옵티마이저를 선택하는것(그리고 이 옵티마이저의 하이퍼파라미터를 튜닝하는 것)도 매우 중요하다.

 

3. 배치크기

 배치 크기는 모델 성능과 훈련 시간에 큰 영향을 미칠 수 있다. 큰 배치 크기를 사용하는 것의 주요 장점은 GPU와 같은 하드웨어 가속기를 효율적으로 활용할 수 있다는 점이다. 따라서 훈련 알고리즘이 초당 더 많은 샘플을 처리할 수 있다.

2~32 정도의 미니매치가 적합하다. 만약 훈련이 불안정하거나 최종 성능이 만족스럽지 못하면 작은 배치 크기를 사용해보면 좋다.

 

4. 활성화 함수

 일반적으로  ReLU 활성화 함수가 모든 은닉층에 좋은 기본값이다. 출력층의 활성화 함수는 수행하는 작업에 따라 달라진다.

 

5. 반복 횟수

 대부분의 경우 훈련 반복 횟수는 튜닝할 필요가 없다. 대신 조기 종료를 사용한다.