일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- CNN 논문리뷰
- Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 리뷰
- 정책기반 agent
- A Neural Attention Model for Abstractive Sentence Summarization
- UBAR: Towards Fully End-to-End Task-Oriented Dialog System with GPT-2
- BERT 사용방법
- NLP 논문 리뷰
- Multi Task Learning Objectives for Natural Language Processing 리뷰
- BERT란
- BART 논문리뷰
- 바닥부터 배우는 강화 학습
- TOD 논문리뷰
- Attention Is All You Need
- The Natural Language Decathlon:Multitask Learning as Question Answering
- Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문리뷰
- ImageNet Classification with Deep ConvolutionalNeural Networks 리뷰
- hugging face tokenizer에서 special case 추가하기
- Multi Task Learning Objectives for Natural Language Processing
- RuntimeError: DataLoader worker (pid(s) ) exited unexpectedly
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 리뷰
- Zero-shot Generalization in Dialog State Tracking through GenerativeQuestion Answering
- Attention Is All You Need 리뷰
- T5 논문 리뷰
- 길찾기
- 다양한 모듈에서 log쓰기
- 뉴텝스 400
- MMTOD
- attention 설명
- Evaluate Multiwoz
Archives
- Today
- Total
목록Batch Normalization (1)
one by one ◼◻◼◻

논문 링크 : https://arxiv.org/abs/1502.03167 이번주에 공부한 내용은 Batch Normalization입니다. 처음에는 논문만 읽고 내용을 이해해 보려고 했는데 지식이 부족해서 논문만 읽고 전체 내용을 이해하기에 한계가 있어서 블로그 글을 몇개 더 읽어보고 내용을 정리 해 보았습니다. 일단 이 논문을 읽어보고 싶었던 이유는! bert에 들어가는 구조이었기 때문입니다.! 리뷰! 신경망 학습은 loss function을 미분한 뒤, 이 기울기를 parameter에 반영하는 방식으로 이루어집니다. 이 기울기가 너무 크거나 작은 경우 학습이 제대로 이뤄지지 않습니다. 그래서 이 문제를 해결하기 위해 ReLU와 같은 활성화 함수를 쓰기도 하고, 가중치 초기값을 잘 두는 방법, smal..
논문리뷰
2021. 10. 22. 15:31