LARGE BATCH OPTIMIZATION FOR DEEP LEARNING: TRAINING BERT IN 76 MINUTES

원본 페이퍼는 Large Batch Optimization for Deep Learning: Training BERT in 76 minutes 입니다.시간 상 An intuitive understanding of the LAMB optimizer 이라는 잘 정리된 미디엄 글을 읽어 요약했습니다.

딥러닝 학습 속도를 가장 쉬운 방법인 데이터 병렬 처리는 GPU와 머신에 모델의 사본을 배포하고 학습 데이터를 공유하여 분산 학습을 하는 방식입니다.
이를 Horovod와 같은 분산 학습 플랫폼을 통해 Ring All Reduce 구조 등을 사용하여, 학습할 수 있습니다.
그러나 배치 크기가 커짐에 따라, 그라디언트가 불안정해 학습에 방해가 될 수 있습니다.
최근 논문(Large Batch Optimization for Deep Learning: Training BERT in 76 minutes)은 미묘한 방식으로 그라디언트를 학습하여, BERT의 학습 시간을 3일에서 76분으로 단축하며, 배치 사이즈를 100x에서 65K로 확장할 수 있게 하였습니다.
SGD와 Adam에 대한 설명이 있지만, 이는 한국어로 된 좋은 자료들도 많고 이 아티클에서도 설명이 모호하여 스킵했습니다. 이에 대한 자세한 설명을 원하시는 분은 위 아티클을 읽어보시기 바랍니다.

LARS

배치 사이즈가 커질 수록 에포크 당 반복횟수가 줄어듭니다. 동일한 수의 데이터 세트 반복에 수렴하기 위해, 학습 learning rate를 높여 이득을 볼 수 있습니다.
그러나 learning rate가 증가함에 따라 학습이 불안정해 집니다.
SOTA는 learning rate warm up을 사용했지만, 학습이 발산하기 시작하는 특정 시점까지만 도움이 되었습니다.
warm up 방식은 gradients가 반드시 노이즈 해야한다는 문제에 대한 해결 방법이였습니다.
Layerwise Adaptive Rate Scaling (LARS)은 이러한 문제점을 아래와 같이 해결하고자 했습니다.

큰 learning rate로 학습 안정성을 분석하기 위해 layer weights의 norm과 그라디언트 업데이트의 표준 사이의 비율을 측정했습니다. 이 비율이 높으면 학습이 불안정해질 수 있습니다. 반면에 비율이 작으면, Weight가 충분히 빠르게 변하지 않습니다.

논문의 저자는 이를 trust ratio이라고 불렀습니다. 높을수록 그라디언트가 더 빨리 변하고, 그 반대도 마찬가지입니다.
이제 각 Step을 확신할 수 있기 때문에, 학습률에 자주 사용되는주의 웜업은 더 이상 필요하지 않으며 학습을 분산하기 않고도 더 큰 배치 크기로 확장할 수 있습니다.
네트워크가 깊어질수록 0의 평균 단위 분산(ZMUV) 가중치를 갖는 것이 중요해지기 때문에 분자는 weight의 norm입니다.
학습을 시작할 때는, 레이어는 ZMUV를 출력해야하므로 위의 분자는 0이거나 그에 가깝습니다. 반면에 무언가 잘못되면, 그라디언트가 커지기 때문에 분모가 클 것 입니다.