일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 식별자
- 연산량 감소
- 인접리스트
- get_dummies()
- SQLD 후기
- 1x1 Convolution
- pytorch
- SQL
- feature map
- Two Pointer
- CROSS JOIN
- bottleneck
- mobilenet
- SQLD
- dp
- BFS
- outer join
- 그래프
- Depthwise Separable Convolution
- resnet
- 정규화
- skip connection
- 데이터모델링
- Inductive Bias
- depthwise convolution
- dfs
- 엔터티
- numpy
- 백준
- 인접행렬
- Today
- Total
목록LLM (18)
SJ_Koding

LLM 모델을 기능에 따라 파인튜닝 시켜 챗봇 시스템을 구축하고, 웹 개발팀에 넘기기 전 LLM의 실시간 스트리밍 출력과, 출력이 Markdown언어일 때 ChatGPT처럼 실시간으로 Markdown문법이 적용되게 끔 구현해보았다.웹 개발자가 아니어서 가장 Basic한 언어를 사용했다. 프론트 : HTML, CSS, JavaScript백엔드: FastAPI만약 ChatGPT처럼 가독성 좋게 답변하길 원한다면, 아래 과정을 거치기 전에 System 프롬프트 튜닝으로 "markdown 형식으로 가독성 좋게 답변해줘" 식으로 프롬프트를 추가해주자.# 내용- 그러면 이런식으로- markdown 문법에 따라 그대로 변환없이 반환할텐데## 변환 방법- 그 방법을 아래에 소개하겠다. MD변환 방법론 요약:스트리밍 ..

해당 포스팅은 이전 글과 이어진 포스팅입니다. 개인적으로 下편에 재밌는 내용이 많은 것 같습니다. 논문 전체내용을 제가 이해한대로 빠짐없이 기입하기 때문에, 낮은 확률로 잘못된 내용이 포함되어있을 수 있으며 글이 길게 나열되어있습니다. 가독성을 위해 section이나 중요부분은 컬러로 표시합니다. 2024.05.03 - [LLM] - [LLM] 적은 데이터로 fine-tuning하자! LIMA: Less Is More for Alignment 리뷰 (Meta, 2023) - 上편 [LLM] 적은 데이터로 fine-tuning하자! LIMA: Less Is More for Alignment 리뷰 (Meta, 2023) - 上편LLM을 파인튜닝 할 일이 생겼는데, 무엇보다 새로운 도메인에서 잘 추론할 수 있..

LLM을 파인튜닝 할 일이 생겼는데, 무엇보다 새로운 도메인에서 잘 추론할 수 있도록 하기위해 데이터셋이 당연히 많아야 한다고 생각했었다. 예를 들어 Function calling기능을 수행할 때, Function을 어느 prompt에서 호출할 지 잘 알기 위해서는 당연히 수많은 데이터셋으로 이를 구별시켜야 한다고 생각했다.그런데, 이 생각이 편향된 생각임을 깨닫게 된 논문이 Meta에서 발표한 LIMA: Less Is More for Alignment(2023) 논문이다. Abstract저자는 LLM이 훈련되는 두 단계에 대해 설명하고 있다. 첫 번째는 unsupervised pretraining으로 raw text로부터 general-purpose representations을 학습한다는 것이고, 두..

LLaMA의 Instruction finetuning결과와 bias, toxicity, misinformation등 LLM의 대표적인 문제점 정도를 디테일하게 평가한다. LLaMA-1은 문제점을 해결한 테스크도 일부 있지만, 여전히 해결하지 못한 테스크도 존재했다. 해당 포스팅은 이전 글들과 이어지는 내용이다. LLaMA: Open and Efficient Foundation Language Models를 알아보자 - 3편, Main ResultLLaMA의 성능 비교실험 결과를 자세히 기술한다. 테스크별로 하위 섹션을 나누었으며 어떤식으로 실험을 구성했는지 잘 설명되어있다. LLaMA가 당시 왜 각광받았는지 알 수 있는 섹션인 것 같다.Intsjkoding.tistory.com 4. Instruction..

LLaMA의 성능 비교실험 결과를 자세히 기술한다. 테스크별로 하위 섹션을 나누었으며 어떤식으로 실험을 구성했는지 잘 설명되어있다. LLaMA가 당시 왜 각광받았는지 알 수 있는 섹션인 것 같다.Introduction, Approach가 궁금하면 아래 링크를 클릭! LLaMA: Open and Efficient Foundation Language Models를 알아보자 - 2편, Approch이전 글에 이어 Approch에 대한 내용이다. 이전글과 다르게 지금부터는 핵심만 요약한다. LLaMA-1의 Pre-training, Architecture, Optimizer, Efficient implementation을 정리한다. LLM 모델에서 어떤식으로 데이터셋을sjkoding.tistory.c..

이전 글에 이어 Approch에 대한 내용이다. 이전글과 다르게 지금부터는 핵심만 요약한다. LLaMA-1의 Pre-training, Architecture, Optimizer, Efficient implementation을 정리한다. LLM 모델에서 어떤식으로 데이터셋을 구축하고, 얼만큼의 자원을 사용하는지, 어떤식으로 학습하는지를 파악할 수 있는 섹션이다. 해당 섹션을 리뷰하면서 대강 LLM의 전반적인 접근방식을 파악할 수 있었다. LLaMA: Open and Efficient Foundation Language Models를 알아보자 - 1편, Introduction 해당 논문을 보면서 LLM 연구의 큰 흐름을 대강이라도 파악할 수 있었다. 최근에 LLaMA2에 비해 비약적으로 성능을 향상시킨 (L..

해당 논문을 보면서 LLM 연구의 큰 흐름을 대강이라도 파악할 수 있었다. 최근에 LLaMA2에 비해 비약적으로 성능을 향상시킨 (LLaMA3-8B가 LLaMA2-70B를 이김;;) LLaMA3오픈소스가 hugging face에 공개되면서 더욱 궁금증이 생겼다. LLM을 할 일이 생겼는데, Vision은 잠시 접어두고 LLM 공부에 투자해야겠다. LLaMA모델은 Meta에서 발표한 모델로 적은 파라메터 수(7B)와 대규모 어디서든 접근 가능한 데이터셋(수조 개 token)만을 사용하여 SOTA를 달성한 모델이다. 사전 지식이 부족하기 때문에, Introduction 만큼은 한 줄 한 줄 자세히 살펴보고, 인용된 중요한 논문을 대강 훑어 정리해본다. Introduction Large Languages Mo..

GPT-1에 대해 이해해보자 (GPT 1편) Chat GPT의 시초, GPT-1 부터 차근차근 알아보자 (본 포스팅은 AI업계에서 유명하신 허민석 개발자님의 유튜브 GPT-1(밑바닥부터 알아보는 GPT) 강의를 참고했습니다.) What is GPT? Generative Pre Training of a la sjkoding.tistory.com GPT-2에 대해 이해해보자 (GPT 2편) GPT-1에 대해 이해해보자 (GPT 1편) Chat GPT의 시초, GPT-1 부터 차근차근 알아보자 (본 포스팅은 AI업계에서 유명하신 허민석 개발자님의 유튜브 GPT-1(밑바닥부터 알아보는 GPT) 강의를 참고했습니다.) W sjkoding.tistory.com 이번 포스팅도 마찬가지로 허민석님의 유튜브 강의를 참고..