contextual embedding모델
shallow bidirectional하게 학습하는 ELMo나
masked self attention(left-to-right)을 이용하는, tranformer의 디코더 구조를 바탕으로하는 GPT와는 달리
BERT는 transformer의 deep하게 bidirectional한 인코더 구조를 기반으로하는 모델이다.
MLM과 NSP task로 pretrain된 BERT모델은 finetuning하여 다양한 task에 적용할 수 있는데, 엄청난 퍼포먼스로 다양한 task에서 sota를 기록했다.
나는 이 BERT모델을 다양한 NLP task에 자주 사용하는데, 이 글에서는 논문을 제외하고 잘 정리된 블로그와 영상을 공유해보고자 한다.
논문을 읽은 뒤 나중에 기억이 가물가물하면 가볍게 블로그를 읽어보는 것도 나쁘지 않은 것 같다.
아래는 transformer와 bert에 관한 블로그들과 영상인데 정리가 참 잘 되어 있다.
skyjwoo.tistory.com/entry/positional-encoding%EC%9D%B4%EB%9E%80-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80
positional encoding이란 무엇인가
Transformer model을 살펴보면, positional encoding이 적용된다. 다음 그림은 transformer 모델에 대한 구조도 인데, positional encoding을 찾아볼 수 있다. 출처는 https://www.tensorflow.org/tutorials/text/..
skyjwoo.tistory.com
nlpinkorean.github.io/illustrated-transformer/
The Illustrated Transformer
저번 글에서 다뤘던 attention seq2seq 모델에 이어, attention 을 활용한 또 다른 모델인 Transformer 모델에 대해 얘기해보려 합니다. 2017 NIPS에서 Google이 소개했던 Transformer는 NLP 학계에서 정말 큰 주목을
nlpinkorean.github.io
어텐션 메커니즘과 transfomer(self-attention)
어텐션 메커니즘은 자연어 기계 번역을 위한 Seq2Seq 모델에 처음 도입되었습니다. 어텐션 메커니즘은 NLP 태스크 뿐만 아니라, 도메인에 관계 없이 다양하게 쓰이고 있습니다. 현재의 SOTA NLP모델��
medium.com
docs.likejazz.com/bert/#position-wise-feed-forward-network
BERT 톺아보기 · The Missing Papers
BERT 톺아보기 17 Dec 2018 어느날 SQuAD 리더보드에 낯선 모델이 등장했다. BERT라는 이름의 모델은 싱글 모델로도 지금껏 state-of-the-art 였던 앙상블 모델을 가볍게 누르며 1위를 차지했다. 마치 ELMo를 �
docs.likejazz.com
추가 :
'deeplearning' 카테고리의 다른 글
Coreference Resolution 관련 논문 정리(1) - End-to-end Neural Coreference Resolution(Kenton Lee et al, 2017) (0) | 2020.11.12 |
---|---|
Coreference Resolution(상호참조해결)이란? (0) | 2020.11.11 |
CRF를 이용한 Named Entity Recognition (0) | 2020.09.18 |
Explainable AI - Integrated Gradients (IG) (0) | 2020.08.26 |
Optimization - Momentum, RMSProp, Adam (0) | 2020.08.21 |