Notice
Recent Posts
Recent Comments
Link
관리 메뉴

one by one ◼◻◼◻

[NLP] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 리뷰(T5)-1 본문

논문리뷰

[NLP] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 리뷰(T5)-1

JihyunLee 2021. 11. 20. 16:06

저자: Colin RaffelNoam ShazeerAdam RobertsKatherine LeeSharan NarangMichael MatenaYanqi ZhouWei LiPeter J. Liu

링크 : https://arxiv.org/abs/1910.10683

 

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Transfer learning, where a model is first pre-trained on a data-rich task before being fine-tuned on a downstream task, has emerged as a powerful technique in natural language processing (NLP). The effectiveness of transfer learning has given rise to a div

arxiv.org

 

이번에 리뷰해 볼 논문은 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, 논문 제목에 T가 5개 들어가서 T5라고 불리는 논문의 리뷰입니다. 67페이지나 되는 긴 논문이라, 두번에 걸쳐 리뷰해 볼 예정입니다!

 

1. Introduction

T5 논문은 실험이 굉장히 많은 논문입니다. 아주 새로운 구조를 발견해서 논문을 썼다기 보다는, 현재 나와있는 transformer관련 구조와 기법을 면밀히 실험한뒤, 가장 좋은 조합의 구조와 학습방법을 사용하여 현재 다수의 benchmark에서 SOTA를 달성하는 좋은 모델을 만들어 냈습니다.
T5 는 encoder만 있는 Bert, decoder만 있는 GPT와는 다르게 encoder와 decoder가 함께 있는 Text-to-Text라는 점에서 이전의 모델과 차이점을 찾을 수 있습니다. 모든 문제들을 text to text구조로 변형하여 학습을 시켰는데, 위 예시처럼 번역 task의 경우 "translate English to German : That is good" 과 같은 input과 "das ist gut" 의 label을 결합시켜 실제 사람에게 가르치는것과 더 비슷한 학습 과정을 거치는 것을 확인할 수 있었습니다.

 

2. Setup(배경지식)

67장에 달하는 논문이니만큼, setup 부분에서는 논문을 읽기 위한 다양한 배경지식을 소개하고 있습니다.

2.1 model 파트에서는 transformer의 처음 개발의 시작부터, encorder 모델인 bert, decorder 모델인 gpt를 소개하고 있습니다.

2.2 The Colossa Clean Crawed Corpus 에서는 T5 을 학습시키기 위한 데이터를 어떻게 수집하였고 전처리했는지 설명하고 있습니다. 이 파트에서는 웹 크롤링 된 정보를 정제하는 방법에 대한 도움을 얻을 수 있었습니다.

2.3 Downstream Tasks 파트에서는 모델의 성능을 실험하기위한 다양한 Downstream task들에 대해 설명하였습니다. 또한 부록에서는 Downstream Tasks를 올바르게 학습시키기 위한 format을 소개하고 있습니다.

2.4 에서는 Input 과 Output의 형태에 대해 설명하고 있습니다. Text to text 포멧, 모든 NLP 태스크를 QA로 생각한 방법, 한번에 여러 태스크를 학습시키기 등 다양한 학습방법과 포멧에  대해 설명하고 있습니다.

 

 

3. Experiments(실험)

다양한 모델, 실험방법, 학습, 토크나이저, 관찰되지 않은 object에 대해 실험을 하고 결과를 보여주고 있습니다. 여기서 기억할만한 것은, 같은 크기의 파라미터를 사용했을때 bert 스타일의 모델보다 인코더-디코더 형태의 모델이 더 좋은 결과를 낸다는 점이 흥미로웠습니다.

또한 T5는 Prefix LM의 구조를 사용하고 있습니다. 기본적인 LM(language model)은 다음에 올 단어를 맞추는 task이기 때문에 현재 예측해야할 단어 다음의 단어들은 정보를 얻을 수 없는 것이 기본 모델인데 (중간모델) Prefix LM은 LM모델임에 도 불구하고 prefix로 주어진 부분은 양방향으로 학습되는것을 볼 수 있습니다. prefix는 "translation : " 과 같이 T5모델이 수행해야 할 task의 이름을 나타내 주는 부분을 의미합니다.

Comments