5월 달에 학부 논문세미나로 Neural Machine Translation of Rare Words with Subword Units를 발표했었습니다. subword 논문에 이어 이번 기회에 subword regularization도 리뷰해보았습니다. 본 페이퍼는 Subword Regularization(kudo 2018)입니다.

Abstract

subword unit은 NMT에서 open vocabulary problems를 완화시키는 효과적인 방법입니다. 문장은 대게 unique subword sequences로 변환되지만, subword segmentation은 잠재적으로 모호하며, 동일한 어휘라도 다른 여러 개(복수 개)로 분할이 가능합니다.

이 논문에서 다루는 질문은 NMT의 견고성(robuestness)을 개선하기 위해 segmentation ambiguity을 noise로 활용하는 것이 가능한 것인가 입니다. 학습 중에 확률적으로 sampling된 복수 개의 subword segmentation으로 모델을 학습하는 간단한 정규화 방법인 subword 정규화를 제시합니다.

또한 더 나은 subword sampling을 위한 unigram language model을 기반으로 한 subword segmentation 알고리즘을 제안합니다.

1. Introduction

NMT 모델은 training과 inference가 어휘 크기에 크게 의존하기 때문에 fixed word vocabularies를 사용했습니다. 그러나 어휘 크기를 제한하면 unknown words이 증가하므로 open vocabulary 환경에서 번역이 부정확했습니다.

open vocabulary 이슈를 다루기 위한 일반적인 접근 방식은 rare word를 subword unit으로 나누는 것이였습니다. BPE(Sennrich et al. 2016)은 많은 NMT 시스템에 적용되는 표준 subword segmentation 알고리즘이며, 몇 가지 Task에서 가장 좋은 번역 품질을 달성합니다.

하지만, 문장은 같은 어휘로도 여러 개의 subword sequences로 나타낼 수 있습니다.

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/2a9b0e2b-9997-4d52-b453-66e73dfcb0c5/Untitled.png

따라서 본 논문에서는 open-vocabulary NMT를 위해 NMT 모델의 정확성과 견고성하게 하기 위한 multiple subword segmentation을 수행하는 subword regularization이라고 불리우는 새로운 regularization 방법을 제시합니다.

2. Neural Machine Translation with multiple subword segmentations