일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 식별자
- SQLD
- 그래프
- Depthwise Separable Convolution
- SQL
- numpy
- outer join
- dfs
- mobilenet
- 정규화
- 인접행렬
- 1x1 Convolution
- BFS
- bottleneck
- 엔터티
- Inductive Bias
- get_dummies()
- Two Pointer
- 데이터모델링
- skip connection
- pytorch
- 연산량 감소
- resnet
- depthwise convolution
- dp
- CROSS JOIN
- 인접리스트
- 백준
- SQLD 후기
- feature map
- Today
- Total
목록분류 전체보기 (88)
SJ_Koding

LLM을 파인튜닝 할 일이 생겼는데, 무엇보다 새로운 도메인에서 잘 추론할 수 있도록 하기위해 데이터셋이 당연히 많아야 한다고 생각했었다. 예를 들어 Function calling기능을 수행할 때, Function을 어느 prompt에서 호출할 지 잘 알기 위해서는 당연히 수많은 데이터셋으로 이를 구별시켜야 한다고 생각했다.그런데, 이 생각이 편향된 생각임을 깨닫게 된 논문이 Meta에서 발표한 LIMA: Less Is More for Alignment(2023) 논문이다. Abstract저자는 LLM이 훈련되는 두 단계에 대해 설명하고 있다. 첫 번째는 unsupervised pretraining으로 raw text로부터 general-purpose representations을 학습한다는 것이고, 두..

LLaMA의 Instruction finetuning결과와 bias, toxicity, misinformation등 LLM의 대표적인 문제점 정도를 디테일하게 평가한다. LLaMA-1은 문제점을 해결한 테스크도 일부 있지만, 여전히 해결하지 못한 테스크도 존재했다. 해당 포스팅은 이전 글들과 이어지는 내용이다. LLaMA: Open and Efficient Foundation Language Models를 알아보자 - 3편, Main ResultLLaMA의 성능 비교실험 결과를 자세히 기술한다. 테스크별로 하위 섹션을 나누었으며 어떤식으로 실험을 구성했는지 잘 설명되어있다. LLaMA가 당시 왜 각광받았는지 알 수 있는 섹션인 것 같다.Intsjkoding.tistory.com 4. Instruction..

LLaMA의 성능 비교실험 결과를 자세히 기술한다. 테스크별로 하위 섹션을 나누었으며 어떤식으로 실험을 구성했는지 잘 설명되어있다. LLaMA가 당시 왜 각광받았는지 알 수 있는 섹션인 것 같다.Introduction, Approach가 궁금하면 아래 링크를 클릭! LLaMA: Open and Efficient Foundation Language Models를 알아보자 - 2편, Approch이전 글에 이어 Approch에 대한 내용이다. 이전글과 다르게 지금부터는 핵심만 요약한다. LLaMA-1의 Pre-training, Architecture, Optimizer, Efficient implementation을 정리한다. LLM 모델에서 어떤식으로 데이터셋을sjkoding.tistory.c..

이전 글에 이어 Approch에 대한 내용이다. 이전글과 다르게 지금부터는 핵심만 요약한다. LLaMA-1의 Pre-training, Architecture, Optimizer, Efficient implementation을 정리한다. LLM 모델에서 어떤식으로 데이터셋을 구축하고, 얼만큼의 자원을 사용하는지, 어떤식으로 학습하는지를 파악할 수 있는 섹션이다. 해당 섹션을 리뷰하면서 대강 LLM의 전반적인 접근방식을 파악할 수 있었다. LLaMA: Open and Efficient Foundation Language Models를 알아보자 - 1편, Introduction 해당 논문을 보면서 LLM 연구의 큰 흐름을 대강이라도 파악할 수 있었다. 최근에 LLaMA2에 비해 비약적으로 성능을 향상시킨 (L..

해당 논문을 보면서 LLM 연구의 큰 흐름을 대강이라도 파악할 수 있었다. 최근에 LLaMA2에 비해 비약적으로 성능을 향상시킨 (LLaMA3-8B가 LLaMA2-70B를 이김;;) LLaMA3오픈소스가 hugging face에 공개되면서 더욱 궁금증이 생겼다. LLM을 할 일이 생겼는데, Vision은 잠시 접어두고 LLM 공부에 투자해야겠다. LLaMA모델은 Meta에서 발표한 모델로 적은 파라메터 수(7B)와 대규모 어디서든 접근 가능한 데이터셋(수조 개 token)만을 사용하여 SOTA를 달성한 모델이다. 사전 지식이 부족하기 때문에, Introduction 만큼은 한 줄 한 줄 자세히 살펴보고, 인용된 중요한 논문을 대강 훑어 정리해본다. Introduction Large Languages Mo..

데이터를 만들어내거나, 학습을 돌리는 것 처럼 반복적인 코드 흐름이 진행 될 때, 무작정 기다리는 것 보단 진행도를 알 수 있으면 좋다. 특히 AI를 공부하고 있을때 거의 필수적으로 사용되는데, 단순 진행률만 보는게 아니라 실시간 loss, smooth loss를 보며 학습이 잘 되고있는지 실시간으로 확인하는 코드도 포함한다. tqdm 이란?tqdm은 'taqaddum'의 약자이며 아랍어라고 한다. '진행'이라는 의미를 가지며 프로그래머에게 어떠한 프로세스의 진행 상황을 시각적으로 보여주는 라이브러리이다. tqdm 기본적인 사용방법1. tqdm설치pip install tqdm # 노트북 상에서 설치하려면 앞에 !를 붙여야함 2. tqdm 불러오기 & 사용방법from tqdm import tqdmfor i..

구글 코랩은 무료버전 최대 12시간, Pro버전 최대 24시간 (변동될 수 있음) 연결이 지속되며 이때 90분간 어떠한 이벤트가 없을 경우 런타임을 종료시켜버린다.학습이 오래걸리는 AI 모델을 Google Colab에서 학습시킬때, 이벤트를 지속적으로 날려줘야하는데 매번 그럴 수도 없다.이미 런타임 끊김 예방 방법은 많지만, 구글코랩의 지속적인 업데이트로 널리 퍼져있는 것들이 무용지물이 되버렸다.스택오버플로우에 어느 한 유저가 최신코드를 공유했다. How can I prevent Google Colab from disconnecting?Is there a way to programmatically prevent Google Colab from disconnecting on a timeout? The fo..

- 부제: ConvNeXt 이해하기 최종 - Image Classification model을 학습할 상황이 생겨서 ConvNeXt를 사용해봤는데 성능이 정말 좋게 나왔다. 대체 이 모델이 뭐길래? 하고 봤더니 Facebook이 발표한 논문이어서 흥미가 생겨 이 논문을 공부하게되었다. 논문을 읽으면서 정말 CNN에 대해 공부하기 좋은 논문이라는 생각이 들었다. 또, 논문구성이 정말 재밌다. 연구에 따른 성능 향상을 순차적으로 배치하여 마치 함께 연구를 한 것과 같은 느낌을 준다. 어떤 내용이길래? extreme 요약: CNN계열 모델(ResNet50사용)을 최신에 알려진 기법을 적용하면서 극한으로 끌어올려보자~! 대신, pure CNN으로. 성공~! Abstract 2020년대, Vision Task에서..