본문 바로가기

deeplearning

Transformer, BERT와 관련해서 읽어보면 좋은 블로그 모음

contextual embedding모델

 

shallow bidirectional하게 학습하는 ELMo나

masked self attention(left-to-right)을 이용하는, tranformer의 디코더 구조를 바탕으로하는 GPT와는 달리

BERT는 transformer의 deep하게 bidirectional한 인코더 구조를 기반으로하는 모델이다.

 

MLM과 NSP task로 pretrain된 BERT모델은 finetuning하여 다양한 task에 적용할 수 있는데, 엄청난 퍼포먼스로 다양한 task에서 sota를 기록했다.

 

나는 이 BERT모델을 다양한 NLP task에 자주 사용하는데, 이 글에서는 논문을 제외하고 잘 정리된 블로그와 영상을 공유해보고자 한다.

 

논문을 읽은 뒤 나중에 기억이 가물가물하면 가볍게 블로그를 읽어보는 것도 나쁘지 않은 것 같다.

아래는 transformer와 bert에 관한 블로그들과 영상인데 정리가 참 잘 되어 있다.

 

skyjwoo.tistory.com/entry/positional-encoding%EC%9D%B4%EB%9E%80-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80

 

positional encoding이란 무엇인가

Transformer model을 살펴보면, positional encoding이 적용된다. 다음 그림은 transformer 모델에 대한 구조도 인데, positional encoding을 찾아볼 수 있다. 출처는 https://www.tensorflow.org/tutorials/text/..

skyjwoo.tistory.com

 

nlpinkorean.github.io/illustrated-transformer/

 

The Illustrated Transformer

저번 글에서 다뤘던 attention seq2seq 모델에 이어, attention 을 활용한 또 다른 모델인 Transformer 모델에 대해 얘기해보려 합니다. 2017 NIPS에서 Google이 소개했던 Transformer는 NLP 학계에서 정말 큰 주목을

nlpinkorean.github.io

medium.com/platfarm/%EC%96%B4%ED%85%90%EC%85%98-%EB%A9%94%EC%BB%A4%EB%8B%88%EC%A6%98%EA%B3%BC-transfomer-self-attention-842498fd3225

 

어텐션 메커니즘과 transfomer(self-attention)

어텐션 메커니즘은 자연어 기계 번역을 위한 Seq2Seq 모델에 처음 도입되었습니다. 어텐션 메커니즘은 NLP 태스크 뿐만 아니라, 도메인에 관계 없이 다양하게 쓰이고 있습니다. 현재의 SOTA NLP모델��

medium.com

docs.likejazz.com/bert/#position-wise-feed-forward-network

 

BERT 톺아보기 · The Missing Papers

BERT 톺아보기 17 Dec 2018 어느날 SQuAD 리더보드에 낯선 모델이 등장했다. BERT라는 이름의 모델은 싱글 모델로도 지금껏 state-of-the-art 였던 앙상블 모델을 가볍게 누르며 1위를 차지했다. 마치 ELMo를 �

docs.likejazz.com

youtu.be/4Bdc55j80l8

 

 

추가 :

 

 

 

 

 

 

 

 

http://nlp.seas.harvard.edu/2018/04/01/attention.html

 

 

http://nlp.seas.harvard.edu/2018/04/01/attention.html