일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- skip connection
- dp
- SQLD 후기
- dfs
- BFS
- mobilenet
- 그래프
- CROSS JOIN
- pytorch
- feature map
- Inductive Bias
- 연산량 감소
- Two Pointer
- bottleneck
- 백준
- 인접리스트
- 식별자
- outer join
- SQLD
- Depthwise Separable Convolution
- numpy
- 엔터티
- resnet
- SQL
- depthwise convolution
- 1x1 Convolution
- 데이터모델링
- 인접행렬
- get_dummies()
- 정규화
- Today
- Total
SJ_Koding
GPT-2에 대해 이해해보자 (GPT 2편) 본문
상위 포스팅에 이어진 내용이다. 이번 포스팅 역시 허민석님의 유튜브 강의를 참고하였다.
GPT-1의 단점
"어쨌든 fine tuning 과정이 필요하다"
이를 해결한 것이 GPT-2이다. GPT-2는 이 fine tuning 과정을 아예 없앴다.
즉 위 그림처럼 GPT-2에서 Task별로 별도의 Fine tuning이 필요하지 않다는 의미이다. 그리고 GPT-2의 크기가 10배이상 커졌고 이는 파라메터를 10배 이상으로 늘렸다는 의미이다.
GPT-2의 학습 방법
GPT-2는 Input값과 수행되어야할 Task정보까지를 입력으로 받아 학습된다.
예를 들어 다음 그림을 보자.
"How are you?"라는 문장에서 "translate to Korean"이라는 문장까지 함께 Input으로 주어 학습을 진행한다. 이때 "translate to Korean"는 하나의 토큰으로 주어진다. (이때부터 슬슬 프롬프트가 주어진다.)
또 다른 테스크로 Q&A 역할을 하는 모델을 만들기 위해 아래 그림처럼 Question과 Answer이라는 스페셜한 token을 사용하여 학습한다.
GPT-2 의 데이터 수집
어떻게 품질좋은 데이터만을 엄선했을까?
--> Reddit이라는 앱에서 3개 이상의 추천을 받은 글 만을 학습하였다.
GPT1과 GPT2의 차이
GPT1과 GPT2는 모두 Transformer의 디코더 아키텍처를 기반으로 한다. GPT-2는 GPT-1보다 더 많은 decoder 블록을 쌓아 올렸으며 GPT-1보다 학습되는 파라메터수가 10배 이상이며, 학습에 사용된 데이터셋도 훨씬 크며 이 때문에 더욱 자연스러운 텍스트 생성이 가능하다.
'LLM' 카테고리의 다른 글
LLaMA: Open and Efficient Foundation Language Models를 알아보자 - 3편, Main Result (0) | 2024.04.24 |
---|---|
LLaMA: Open and Efficient Foundation Language Models를 알아보자 - 2편, Approch (0) | 2024.04.23 |
LLaMA: Open and Efficient Foundation Language Models를 알아보자 - 1편, Introduction (0) | 2024.04.22 |
GPT3에 대해 이해해보자 (GPT 3편) - Language Models are Few-Shot Learners (0) | 2024.03.21 |
GPT-1에 대해 이해해보자 (GPT 1편) (0) | 2024.03.20 |