고해상도 이미지에서 수백 종류에 물체를 감지하는 것처럼 아주 복잡한 문제를 다뤄야 한다면 수백 개의 뉴런으로 구성된 10개 이상의 층을 수십만 개의 가중치로 연결해 훨씬 더 깊은 심층 신경망을 훈련해야 한다. 심층 신경망을 훈련하는 것은 쉬운 일이 아니다. 훈련 중에 다음과 같은 문제를 마주할 수 있다. 알고리즘이 하위층으로 진행될수록 그레이디언트가 점점 작아지는 경우가 많다. 경사 하강법이 하위층의 연결 가중치를 변경되지 않은 채로 둔다면 훈련이 좋은 솔루션으로 수렴되지 않을 것이다. 이 문제를 그레이디언트 소실(vanishing gradient)라고 한다. 어떤 경우엔 반대 현상이 일어날 수 있다. 그레이디언트가 점점 커져서 여러 층이 비정상적으로 큰 가중치로 갱신되면 알고리즘은 발산한다. 이 문제를..