본문 바로가기

deeplearning

(20)
Sentence-BERT: Sentence Embedding using Siamese BERT-Networks Sentence-BERT: Sentence Embedding using Siamese BERT-Networks (Nils Reimers & Iryna Gurevych, EMNLP 2019) Introduction Sentence-BERT(SBERT)는 siamese와 triplet 네트워크를 활용해 BERT를 변경한 것이며, 이를 통해 semantically meaningful sentence embedding이 가능해진다. 따라서 기존 BERT로하기 어려운 NLP task인 large-scale semantic similarity comparison, clustering 등도 해낼 수 있다. 물론 BERT가 Sentence Classification이나 sentence pair regression t..
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension (Lewis et al., 2020) ACL 2020에 Facebook이 발표한 논문 1. Introduction Transformer 기반 모델을 Self supervised learning을 통해 Pre-training하는 방법은 최근 다양한 NLP tasks에서 큰 성공을 보이고 있다. 대표적으로 Transformer의 인코더를 pre-training(MLM)하여 이용하는 BERT와 디코더를 pre-training(Next Word Prediction)하여 이용하는 GPT가 있다. 하지만 BERT의 경우 완전히 Bidirectional 하게 모델이 설계되어있기 때문에 generation task에서는 성능이 상대적으로 낮다. 그리고 GPT의 경우 Autoregressive하게 설계된 모델이기에 전체적 맥락을 처리하는 task에 어려움이..
GPT3(Generative Pretrained Transformer) - Language Models are Few-Shot Learners Fine-Tuning과 같은 추가 학습 없이 몇 번의 demonstration으로 Down Streaming Task가 가능하도록 하려면 어떻게 할까? Open AI는 이에 대한 해답으로 GPT-3를 제시한다. GPT-3는 트랜스포머의 디코더 구조를 따서 만든 거대 모델이다. Pretrain된 1750억개의 파라미터를 바탕으로 fine tuning 없이 zero-shot과 few-shot setting을 통해 Down Streaming NLP task가 가능하다. BERT와 같은 pre-trained 모델을 다양한 task에 적용하기 위해 우리는 주로 Fine tuning을 이용한다. 처음부터 학습시키는 것 보다는 훨씬 정확하고 빠르지만, 이를 위해 트레이닝 데이터를 모으고 분류하는 일은 쉽지 않고, G..
Conversation Model Fine-Tuning for Classifying Client Utterances in Counseling Dialogues (Sungjoon Park et al., 2019) Conversation Model Fine-Tuning for Classifying Client Utterances in Counseling Dialogues(Sungjoon Park, Donghyun Kim, Alice Oh)는 2019년 NAACL에 게재된 논문이다. 1) Abstract 최근 텍스트 기반의 온라인 카운셀링이 발달하면서 전문 상담가와 환자의 대화 데이터를 수집 및 분석할 수 있게 되었으며, 이 데이터를 기반으로 환자의 말을 특정 의미있는 카테고리로 분류하는 모델을 만들면 상담가의 상담을 도와줄 수 있다. 이 논문은 이를 위해 1. 상담가와 환자의 대화를 얻었다. 2. 전문 상담가가 환자의 말을 의미있는 카테고리로 분류하였다. 3. ConvMFiT이라는 사전학습된 대화 모델을 제안했으며..
Doc2Vec (PV-DM) 문장들은 모여서 문단을 이루고 하나의 문서가 된다. 이러한 문단(paragraph) 혹은 문서(document)에 대한 representation learning 방법은 굉장히 다양하고 Doc2Vec은 그중 하나 이다. Doc2Vec은 Word2Vec의 확장 개념으로 문서를 임베딩하는 모델이며, 대표적으로는 PV-DM라고 하는 모델이 있다. 이 모델은 아래의 아키텍쳐에서 볼 수 있듯이, 다음 단어를 예측하며 로그 확률 평균을 최대화하는 과정에서 paragraph id에 대한 학습(paragraph representation)과정을 추가하여 paragraph embedding을 한다고 이해할 수 있다. 위의 그림에서 paragraph_id를 나타내는 embedding vector는 해당 paragraph(..
Coreference Resolution 관련 논문 정리(5) - Pre-training Mention Representations in Coreference Models(Yuval Varkel et al., 2020) 상호참조해결 레이블을 얻는 것은 굉장히 어려운 일이다. 특히 한국어는 더 그렇다. 따라서 레이블이 없는 데이터를 최대한 활용해 coreference resolution model의 성능을 올릴 수 있다면 좋을 것이다. 이 논문에서는 그 방법에 대해 설명한다. 1. Introduction 최신 Coreference Resolution 모델들 중 대부분은 mention의 vector representation을 이용해 clustering을 진행한다. 따라서 이 mention representation은 굉장히 중요하다. SpanBERT를 이용해 embedding을 한 모델이 BERT로 embedding을 한 모델보다 성능이 우수하다는 점에서도 이를 알 수 있다. 하지만 BERT든 SpanBERT든 self-..
Coreference Resolution Metrics Key(GOLD) entity의 집합을 K라고 하고, Response(PREDICTED) entity의 집합을 R이라고 하자. 각 개체(Entity)는 한 개 이상의 언급(Mention)을 가진다. 각 메트릭들은 서로 다른 방식으로 Precision과 Recall을 측정한다. 1. MUC - 링크 기반 측정 방법으로 key와 response 각각에 대한 recall과 precision을 측정한다. - Recall : (The number of common links between entities in K and R) / (The number of links in K) - Precision : (The number of common links between entities in K and R) / (The..
BERT for Coreference Resolution 모델코딩 #pytorch #한국어 데이터 셋 총 124개의 서로 다른 주제의 documents 문장들, mention cluster 등이 json 형태로 구성 train data와 validation data의 비율은 8:2로 임의로 배분 이용 버전 torch==1.2.0 transformers==3.0.2 numpy==1.18.1 코드 1 . Config 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 ..