원본 페이퍼는 Large Batch Optimization for Deep Learning: Training BERT in 76 minutes 입니다.시간 상 An intuitive understanding of the LAMB optimizer 이라는 잘 정리된 미디엄 글을 읽어 요약했습니다.

LARS

큰 learning rate로 학습 안정성을 분석하기 위해 layer weights의 norm과 그라디언트 업데이트의 표준 사이의 비율을 측정했습니다. 이 비율이 높으면 학습이 불안정해질 수 있습니다. 반면에 비율이 작으면, Weight가 충분히 빠르게 변하지 않습니다.