본문 바로가기

AI/자연어처리(NLP)

(11)
BERT를 파해쳐 보자!! BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 최근 BERT 라는 이름의 모델이 많은 자연어처리 분야에서 지금껏 state-of-the-art 였던 기존 앙상블 모델을 가볍게 누르며 1위를 차지했다. 특정 분야에 국한된 기술이 아니라 모든 자연어 응용 분야에서 좋은 성능을 내는 범용 모델인 Language model이 탄생하였다. 범용 모델 구조와 대량의 범용 학습 데이터를 사용하여 다양한 task에 flexibility를 높였지만, 많은 자원이 필요하다. 본 글은 BERT에 대한 설명과, 이를 bio, science, finance 등 다른 도메인에 접목시킨 연구들에 대해 다룬다. 1. 서론 BERT는 B..
Transformer-XL 정리, 사용법 Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context 요즘 XLNet이 등장하여 Bert의 기록들을 갱신하고 있다. 자연어 처리 분야에서 Self-Attention을 이용한 모델들이 기존 CNN, RNN을 이용한 모델들보다 크게 성능이 앞서고 있다. Bert는 Transformer 모델을 기반으로 token을 masking 하고, 다음 문장을 예측하는 2가지 phase를 동시에 적용시킨 모델이다. 하지만 이 모델은 Transformer를 사용하므로, 고정길이의 문장(=512)밖에 다루지 못한다. 즉, Token 길이가 512가 넘는 문장에 대해서는 잘라야 하고, 512가 안 되는 문장은 padding을 해야 한다. 이러한 Tran..
GPT-2 (Generative Pre-Training 2) 소설쓰는 인공지능!본 글에서는 소설쓰는 인공지능인 GPT-2 모델의 사용법에 대해 알아보고직접 인공지능이 소설을 쓰게 해본다. 최근 인공지능의 자연어 처리에서 가장 화제가 되고있는건Bert, GPT-2, Transformer 이다. Transformer : 번역(Neural Machine Translation)Bert : 양방향 언어모델GPT-2 : 단방향 언어모델 본 글에서는 파이토치를 이용한 GPT-2(Generative Pre-Training-2)에 대해 다룬다. 보통 Tensorflow로 학습된 모델을 convert_tf_checkpoint_to_pytorch_custom.py 을 이용하여 파이토치 버전으로 바꾼다.하지만 이미 파이토치 버전으로 변환해 놓은 GPT2 pre-trained model..