'2024/03 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2024/03 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

목록2024/03 (6)

SJ_Koding

개인 기록용 PyTorch 오류 모음

1. timm에서 model를 load한 뒤, 저장된 pt파일을 불러와 inference를 시키면 성능이 크게 감소했음. --> model.eval()를 반드시 실행해줘야함. with torch.no_grad는 parameter update를 통제할 뿐, forward 과정까지의 update를 통제하지는 않는다. timm은 default mode로 train mode로 설정 되어있으므로 eval()을 통해 모드를 바꿔줘야한다. eval()모드는 BatchNormalization의 파라메터를 Train시 셋팅한 값을 그대로 가져오지만, train()은 입력 데이터에 따라 BN의 parameter를 변화시키기 때문에, 성능이 엉망이 되었던 것이다. (추가로 dropout 레이어도 완전히 무시해준다.) 아마 ..

PyTorch Code/Pytorch 2024. 3. 28. 14:08

GPT3에 대해 이해해보자 (GPT 3편) - Language Models are Few-Shot Learners

GPT-1에 대해 이해해보자 (GPT 1편) Chat GPT의 시초, GPT-1 부터 차근차근 알아보자 (본 포스팅은 AI업계에서 유명하신 허민석 개발자님의 유튜브 GPT-1(밑바닥부터 알아보는 GPT) 강의를 참고했습니다.) What is GPT? Generative Pre Training of a la sjkoding.tistory.com GPT-2에 대해 이해해보자 (GPT 2편) GPT-1에 대해 이해해보자 (GPT 1편) Chat GPT의 시초, GPT-1 부터 차근차근 알아보자 (본 포스팅은 AI업계에서 유명하신 허민석 개발자님의 유튜브 GPT-1(밑바닥부터 알아보는 GPT) 강의를 참고했습니다.) W sjkoding.tistory.com 이번 포스팅도 마찬가지로 허민석님의 유튜브 강의를 참고..

LLM 2024. 3. 21. 14:48

GPT-2에 대해 이해해보자 (GPT 2편)

GPT-1에 대해 이해해보자 (GPT 1편) Chat GPT의 시초, GPT-1 부터 차근차근 알아보자 (본 포스팅은 AI업계에서 유명하신 허민석 개발자님의 유튜브 GPT-1(밑바닥부터 알아보는 GPT) 강의를 참고했습니다.) What is GPT? Generative Pre Training of a la sjkoding.tistory.com 상위 포스팅에 이어진 내용이다. 이번 포스팅 역시 허민석님의 유튜브 강의를 참고하였다. GPT-1의 단점 "어쨌든 fine tuning 과정이 필요하다" 이를 해결한 것이 GPT-2이다. GPT-2는 이 fine tuning 과정을 아예 없앴다. 즉 위 그림처럼 GPT-2에서 Task별로 별도의 Fine tuning이 필요하지 않다는 의미이다. 그리고 GPT-2의 ..

LLM 2024. 3. 20. 19:41

GPT-1에 대해 이해해보자 (GPT 1편)

Chat GPT의 시초, GPT-1 부터 차근차근 알아보자 (본 포스팅은 AI업계에서 유명하신 허민석 개발자님의 유튜브 GPT-1(밑바닥부터 알아보는 GPT) 강의를 참고했습니다.) What is GPT? Generative Pre Training of a language model (GPT)의 약자, 여기서 말하는 language model부터 이해해보자. 구글이나 유튜브를 검색할 때, 어떤 단어를 입력하면 다음 단어가 추천되는 것을 자주 확인할 수 있다. ex) 입력: GPT 추천: GPT 사용법, GPT-4, GPT 유료, ... 등등 language model은 위 예시처럼 현재 토큰을 가지고 다음 토큰을 예측하는 행위도 가능하다. 이때 Language model의 장점은 특별한 라벨링이 필요 없..

LLM 2024. 3. 20. 10:22

ADsP, 데이터 분석 준전문가 2일 공부 합격후기 (40회, 전공자 기준)

예전에 KT AIVLE SCHOOL수료식날 팀원들끼리 자격증 이야기를 하다가 "지금 신청기간이에요!" 라는 말에 정보처리기사, AdSP 자격증 신청을 했었고, 잊고있다가.. 3일전에 알게되었다. 정보처리기사(필기)는 3일 공부로 합격하였고(추후 포스팅 예정) AdSP는 2일 벼락치기로 합격했다. 여기서 말하는 2일은 독서실에 오전 10시 부터 밤 11시까지. 하루 종일 투자한 2일이다. 사용 교재2024 이지패스 ADsP 데이터분석 준전문가 이 교재를 사용한 이유는 이론 내용도 내용이지만, 무엇보다 기출문제 제공이 컸다. ADsP도 기출은행식이라는 말을 들었었기 때문이다. (그렇다고 너무 기출은행은 아니었었다. 2024년 첫 시험이었던 40회는 주관식이 사라지고 신유형이 많이 나온 느낌이었다.)일단 무작..

Certification 2024. 3. 16. 11:30

백준 1715: 카드 정렬하기(골드 IV) - Priority Queue

1715번: 카드 정렬하기 정렬된 두 묶음의 숫자 카드가 있다고 하자. 각 묶음의 카드의 수를 A, B라 하면 보통 두 묶음을 합쳐서 하나로 만드는 데에는 A+B 번의 비교를 해야 한다. 이를테면, 20장의 숫자 카드 묶음과 30장 www.acmicpc.net 우선순위 큐를 사용하는 대표적인 문제인 것 같다. 문제 요약: 여러 장으로 구성된 덱들을 하나로 합칠 때, 최소 비교 횟수로 합칠 수 있는 방법 ex) 10장, 20장, 40장으로 구성된 덱에서 10장짜리와 20장짜리를 합치는데 30번의 비교가 들고 합쳐진 30장과 40장을 합칠때는 70번의 비교가 소요되어 총 100번의 비교가 수행. 만약 10장과 40장을 먼저 합치고 20장과 합친다면 (10+40) + (50 + 20) == 120이 되어 최소..

Algorithm/Greedy 2024. 3. 5. 00:07

이전 Prev 1 Next 다음

목록2024/03 (6)

SJ_Koding

티스토리툴바