일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- MMTOD
- The Natural Language Decathlon:Multitask Learning as Question Answering
- Multi Task Learning Objectives for Natural Language Processing 리뷰
- 뉴텝스 400
- Attention Is All You Need 리뷰
- Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
- RuntimeError: DataLoader worker (pid(s) ) exited unexpectedly
- ImageNet Classification with Deep ConvolutionalNeural Networks 리뷰
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 리뷰
- T5 논문 리뷰
- attention 설명
- UBAR: Towards Fully End-to-End Task-Oriented Dialog System with GPT-2
- TOD 논문리뷰
- hugging face tokenizer에서 special case 추가하기
- Evaluate Multiwoz
- Zero-shot Generalization in Dialog State Tracking through GenerativeQuestion Answering
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문리뷰
- NLP 논문 리뷰
- 정책기반 agent
- Attention Is All You Need
- Multi Task Learning Objectives for Natural Language Processing
- Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 리뷰
- 바닥부터 배우는 강화 학습
- BERT 사용방법
- CNN 논문리뷰
- A Neural Attention Model for Abstractive Sentence Summarization
- 길찾기
- BERT란
- 다양한 모듈에서 log쓰기
- BART 논문리뷰
- Today
- Total
one by one ◼◻◼◻
[NLP논문리뷰]How Much Knowledge Can You Pack Into the Parameters of a Language Model? 본문
[NLP논문리뷰]How Much Knowledge Can You Pack Into the Parameters of a Language Model?
JihyunLee 2021. 9. 12. 23:43제목 : HowMuchKnowledge Can You Pack Into the Parameters of a Language Model?
저자 : Adam Roberts, Colin Raffel, Noam Shazeer
발행년도 : 2020
paper : https://arxiv.org/abs/2002.08910
code : https://github.com/google-research/google-research/tree/master/t5_closed_book_qa
Review
QA모델에 대한 논문 중 google에서 출간한 논문.
기존의 QA task는 passage를 보여주고 이에 대한 답을 찾아가는 방식이었다. 그러나 이 논문은 passage를 보여주지 않고 질문 부터 한다.
즉 다양한 task에 대해 학습한 T5에게 "루즈벨트 대통령이 태어난 해는?" 이라는 질문을 한다면, T5는 위키피디아의 지식 없이도 1882이라고 답을 하는지 실험해 본 논문이다.
논문에서는 Passage를 보여주고 Passage안에서 답을 찾도록 한 방식을 Open book test, passage를 보여주지 않고 답을 찾도록 한 방식을 Closed book test라고 비유했다!
Experimetns
실험에는 Natural Question, WebQuestions, TriviaQA 데이터를 사용하였고, passage는 사용하지 않고, 질문-답만 사용해서 학습시켰다.
Result
여기서 T5.1.1 은 unlabeled data only로 학습된 T5를 의미한다. 놀랍게도, passage를 보여주지 않았음에도 SOTA의 성능을 달성한 Task들이 있었으며, 다른 데이터 셋에 대한 성능도 SOTA에서 크게 뒤쳐지지 않았다.