Notice
Recent Posts
Recent Comments
Link
관리 메뉴

one by one ◼◻◼◻

[NLP] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 리뷰(T5)-3 본문

논문리뷰

[NLP] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 리뷰(T5)-3

JihyunLee 2021. 12. 5. 11:57

저자: Colin RaffelNoam ShazeerAdam RobertsKatherine LeeSharan NarangMichael MatenaYanqi ZhouWei LiPeter J. Liu

링크 : https://arxiv.org/abs/1910.10683

 

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Transfer learning, where a model is first pre-trained on a data-rich task before being fine-tuned on a downstream task, has emerged as a powerful technique in natural language processing (NLP). The effectiveness of transfer learning has given rise to a div

arxiv.org

 

앞의 포스트에서  이어  T5 논문의 후반부를 리뷰해 보도록 하겠습니다.

 

3.6 Scailing

머신러닝 연구에서 최근까지 밝혀진 씁쓸한 사실(논문 표현 그대로 가져오자면 bitter lesson)은 모델의 크기가 클수록 더 좋은 모델이 나온다는 사실입니다. 세심하게  fine tunning을 하는 것 보다도 큰 모델을 썼을 때 더 좋은 성능이 나올 수 있었다는 것 이죠. 그러나 모델의 크기를 늘린다는 것에도 다양한 방법이 있을 수 있습니다.  Scailing  파트에서는 4배 큰   computing  power 가 생겼을 때 모델의 크기를 어떻게 늘리는 것이 효율적인가에 대해 실험을 진행하였습니다.

그리고 위의 표는 실험 결과입니다.  Scaling strategy 를 보면 알 수 있듯, 사이즈와 스텝을 늘리면서 진행을 하였습니다.   그리고 밑에 두 ensembled 의 차이점은  4x  ensembled 는 pre training 과 fine tunning 모두 다르게 진행, 아래 4x ensembled, fine tune only는 fine tunning만 별도로 진행한 것을 의미합니다.

 

결과 상으로는 사이즈를 크게 늘린것, 그리고 사이즈를 크게 하고 데이터를 더 본것(C4 데이터의 크기가 커서 한번 학습할때 다 사용하지 않았음), 둘다 모두 성능이 좋았던 것을 확인할 수 있었습니다. 또한 앙상블 모델에서는  pre training과 fine tunning을 별도로 한것과  fine tunning 만 별도로 한 것의 성능이 크게 차이가 없었으므로, 아래 모델이 좀더 가성비 있는 모델임을 알 수 있습니다.

 

3.7 Putting It All Together

이 장에선는 앞에서 나온 실험과 그 결과를 정리해 주고 있습니다. 논문을 다 읽기에 바쁜 사람들은 여기만 봐도 좋을 듯 합니다.

Objective

Pre training시, 원래 문장에서 span길이 3개의 단어를 15% 삭제하고 이를 맞추게 하는 방법을 사용하였습니다.

 

Model size

다양한 모델 사이즈를 제공했습니다.

Base, Small, Large, 3B, 11B 와 같은 다양한 크기의 모델을 제공합니다.

 

Multi-task pre-training

pre training 시에 다양한 도메인의 데이터를 한번에 학습했습니다.

 

그 밖에도 다양한 beam search 와 같은 다양한 방법을 이용해서 모델을 만들었는데, 논문을 확인해 보시면 좋겠습니다

 

 

4. Reflection

결과 정리 파트입니다. 논문이 기여한 점, 그리고 생각해 봐야 할 것들을 정리하고 있습니다.

 

4.1 Takeaways

Text-to-text :  text to text frame 으로 간단하게 학습할 수 있는 구조를 만들었습니다.

Architectures :  Encoder + Decoder 구조를 사용하였습니다.

Unsupervise objectives :  Pre-training  과정에서 더 짧은 target sequences 가 나오는  objective 를 만들었습니다.

Data sets : C4 dataset  을 만들었습니다.

Trainig strategies : 새로운 training 방법을 만들지 않았지만, task를 mixing을 해서 pre training과 fine tunning 했을 때, 더 좋은 성능이 나온다는 것을 밝혔습니다.

Scailing : 모델의 크기를 키울 때 어떻게 해야하는 지 다양한 방법을 실험했습니다.

Pushing the limits : 위 말한 방법을 모두 사용하고, 11 billion parmeters가 있는 큰 모델을 학습시켜 다양한 task에서 state of the art성능을 달성하였습니다.

 

4.2 outlook

The inconvenience of large models: 모델 크기가 클때 더 좋은 성능이 나왔지만, 모든 상황에서 큰 모델을 동작시킬수 있지 않기 때문에 이에 대해 생각해 보아야 합니다.

Formalizing the similarity between tasks : Tasks 간의 유사한 점이 있는것을 밝혔습니다. 예를들어 wiki text로 pretraining 한 모델은 같은 text로 만든 squad task를 잘할 수 밖에 없는것을 밝혔습니다.

Language-agnostic models : 현재 만든 모델은 언어에 의존적이지만, 의존적이지 않은 언어 모델을 앞으로 개발하려고 합니다.

 

 

이것으로 장장 3주에 걸친 T5 모델의 리뷰가 끝났다. 리뷰하면서 느낀점은 논문이라기 보다는 교과서에 가까운 내용이었고 실험도 정말 꼼꼼하게 진행해서 정말 좋은 논문이었다는 생각이 든다!👏👏

Comments