NLP (20) 썸네일형 리스트형 Neural Machine Translation Neural Machine Translation Translation Source-language text → Target-language text Machine Translation Sentence x from source language → Sentence y from target language Most Biggest Research Area: ACL 2021 Accepted Papers, EMNLP 2021 Accepted Papers History of Machine Translation Statisical Machine Translation (~2015) Probabilistic model from data P(x|y): Translation Model P(y): Language Model A.. Text Generation Text Generation Text Generation (Natural Language Generation: NLG) Given some inputs, a model generates new texts Text Generation Applications · Machine Translation · Open-ended Genration (자유 생성) · Documnet Summarization · Dialogue System · Question & Answering / Entity Retrival Formulation of Text Generation Text classification Text Generation Only a few prediciton Large probability space of te.. Sequence/Token Classification Sequence/Token Classification Token: 작은 단위 Sequence: 한 문장 Document: Muti-sentences NLP Roadmap Text Classification (Sequence Classification) - Classify the entire text → categories - Extract the entire token representation → 'prototype' representation E.g., spam classifier, sentiment analysis, article classifier Token Classification (Sequence Tagging) - Classify each token of the text Named Enti.. GPT GPT BERT: Word Masking, Transformer의 Encoder 구조 GPT: Next Word 예측, Transformer의 Decoder 구조 Improving language understanding by generative pre-training GPT1 - , , $ 등의 special token을 사용하여 model을 fine-tuning - 12-layer decoder-only transformer - 12 head / 768 dimensional states - GeLU activation unit BERT - Pre-training of Deep Bidirectional Transformers for Language Understanding - Masked Languag.. BERT BERT LM preview - Language Model은 단어 sequence에 확률을 할당하는 model - 가장 자연스러운 단어 sequence를 찾는 model - LM이 이전 word가 주어졌을 때, 다음 word를 predict - Language Modeling: 주어진 word들로부터 아직 모르는 word를 predict하는 작업 Pre-training Initialize part of the model with networks trained using unsupervised learning → Sepatrate model을 training 해야 한다는 단점 有 Language understanding by generative pre-training GPT Ⅰ - 12-layer deco.. Sinusoidal Positional Encoding 직접 계산해보기 RNN과 LSTM과 다르게 Transformer는 input X가 병렬 처리되어 투입된다. 병렬 구조의 투입은 연산 속도가 향상되고 long-term dependency 문제를 해결할 수 있지만, sentence의 sequential 한 정보가 제거된다는 치명적인 단점이 있다. 따라서, Transformer에서는 Input Embedding에 Positional Encoding이라는 위치 정보 Matrix를 더하여 새롭게 계산된 Matrix를 첫 번째 encoder의 input으로 투입한다. Positional encoding 계산 방법에는 다양한 advanced 된 방법이 있지만, 처음 Transformer 구조가 소개된 "Attention is All You Need" 논문에서 사용된 Sinusoid.. Transformer Transformer Transformer Overview Multi-head self-attention을 이용해 sequential computation을 줄여 더 많은 부분을 병렬처리가 가능하게 만들면서 동시에 더 많은 단어들 간 dependency를 모델링. Input je suis etudiant ↓ The Transformer ↓ Output I am a student Transformer box 내부 Encoding 부분은 여러 개의 encoder를 쌓아 올림 (논문에서는 6개) → 모두 정확히 똑같은 구조 Decoding 부분에서도 동일하게 decoder 쌓아 올림 Encoder 내부 Self-Attention layer: encoder가 하나의 특정한 word를 encode하기 위해 inp.. Tokenization 1. NLP Pipeline 2. Tokenization NLP Pipeline Pre-Tokenization: Data의 noise 제거 → Tokenization: sequence를 program이 이해할 수 있게 변환 NLP Pipeline Data Collection e.g., 문서 분류 API: Sentence - 문어체, 구어체 dataset class (문어체 - 신문기사 - 문어체 class - 0 / 구어체 - 블로그 글 - 구어체 class - 1) [sent1, 1] x N(문장 개수) x M(블로그 개수) # sent1 - list of tokens Preprocessing - Pre-tokenization: cleaning, Normalization ··· - Tokenizatio.. 이전 1 2 3 다음