contextual embedding모델
shallow bidirectional하게 학습하는 ELMo나
masked self attention(left-to-right)을 이용하는, tranformer의 디코더 구조를 바탕으로하는 GPT와는 달리
BERT는 transformer의 deep하게 bidirectional한 인코더 구조를 기반으로하는 모델이다.
MLM과 NSP task로 pretrain된 BERT모델은 finetuning하여 다양한 task에 적용할 수 있는데, 엄청난 퍼포먼스로 다양한 task에서 sota를 기록했다.
나는 이 BERT모델을 다양한 NLP task에 자주 사용하는데, 이 글에서는 논문을 제외하고 잘 정리된 블로그와 영상을 공유해보고자 한다.
논문을 읽은 뒤 나중에 기억이 가물가물하면 가볍게 블로그를 읽어보는 것도 나쁘지 않은 것 같다.
아래는 transformer와 bert에 관한 블로그들과 영상인데 정리가 참 잘 되어 있다.
skyjwoo.tistory.com/entry/positional-encoding%EC%9D%B4%EB%9E%80-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80
nlpinkorean.github.io/illustrated-transformer/
docs.likejazz.com/bert/#position-wise-feed-forward-network
추가 :
'deeplearning' 카테고리의 다른 글
Coreference Resolution 관련 논문 정리(1) - End-to-end Neural Coreference Resolution(Kenton Lee et al, 2017) (0) | 2020.11.12 |
---|---|
Coreference Resolution(상호참조해결)이란? (0) | 2020.11.11 |
CRF를 이용한 Named Entity Recognition (0) | 2020.09.18 |
Explainable AI - Integrated Gradients (IG) (0) | 2020.08.26 |
Optimization - Momentum, RMSProp, Adam (0) | 2020.08.21 |