SJ_Koding

GPT-2에 대해 이해해보자 (GPT 2편) 본문

LLM

GPT-2에 대해 이해해보자 (GPT 2편)

성지코딩 2024. 3. 20. 19:41
 

GPT-1에 대해 이해해보자 (GPT 1편)

Chat GPT의 시초, GPT-1 부터 차근차근 알아보자 (본 포스팅은 AI업계에서 유명하신 허민석 개발자님의 유튜브 GPT-1(밑바닥부터 알아보는 GPT) 강의를 참고했습니다.) What is GPT? Generative Pre Training of a la

sjkoding.tistory.com

상위 포스팅에 이어진 내용이다. 이번 포스팅 역시 허민석님의 유튜브 강의를 참고하였다.

GPT-1의 단점

"어쨌든 fine tuning 과정이 필요하다"

이를 해결한 것이 GPT-2이다. GPT-2는 이 fine tuning 과정을 아예 없앴다.

 

즉 위 그림처럼 GPT-2에서 Task별로 별도의 Fine tuning이 필요하지 않다는 의미이다. 그리고 GPT-2의 크기가 10배이상 커졌고 이는 파라메터를 10배 이상으로 늘렸다는 의미이다.

GPT-2의 학습 방법

GPT-2는 Input값과 수행되어야할 Task정보까지를 입력으로 받아 학습된다. 

예를 들어 다음 그림을 보자.

"How are you?"라는 문장에서 "translate to Korean"이라는 문장까지 함께 Input으로 주어 학습을 진행한다. 이때 "translate to Korean"는 하나의 토큰으로 주어진다. (이때부터 슬슬 프롬프트가 주어진다.)

또 다른 테스크로 Q&A 역할을 하는 모델을 만들기 위해 아래 그림처럼 Question과 Answer이라는 스페셜한 token을 사용하여 학습한다.

 

GPT-2 의 데이터 수집

어떻게 품질좋은 데이터만을 엄선했을까?

--> Reddit이라는 앱에서 3개 이상의 추천을 받은 글 만을 학습하였다.

 

GPT1과 GPT2의 차이

GPT1과 GPT2는 모두 Transformer의 디코더 아키텍처를 기반으로 한다. GPT-2는 GPT-1보다 더 많은 decoder 블록을 쌓아 올렸으며 GPT-1보다 학습되는 파라메터수가 10배 이상이며, 학습에 사용된 데이터셋도 훨씬 크며 이 때문에 더욱 자연스러운 텍스트 생성이 가능하다.