일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 정규화
- 연산량 감소
- dp
- Inductive Bias
- 인접행렬
- BFS
- SQL
- get_dummies()
- skip connection
- CROSS JOIN
- numpy
- resnet
- pytorch
- Two Pointer
- bottleneck
- feature map
- 1x1 Convolution
- Depthwise Separable Convolution
- 백준
- 데이터모델링
- depthwise convolution
- 엔터티
- 그래프
- 식별자
- outer join
- dfs
- SQLD
- mobilenet
- SQLD 후기
- 인접리스트
- Today
- Total
목록LLM (19)
SJ_Koding

Llama-4 모델을 테스트하던 중 자꾸 surrogates not allowed 에러가 발생했다. 이모티콘을 내뱉으려고 하는건지, 가끔씩 한글이 크게 왜곡되면서 이상하게 답변이 오거나 이 에러가 발생했다.Surrogates라는 개념을 처음 접하는데 이를 이해하기 쉽게 아래 차근차근 풀어서 정리한다. 우선 UTF-16과 UTF-8의 차이를 알아봐야한다. 아주 쉽게.UTF-16은 16비트의 고정 길이를 가진다. 따라서 0x10000이상의 코드포인트를 하나의 16비트 단위로 표현할 수 없어서, 이를 해결하기 위해 Surrogate Pair라는 개념을 사용한다. 간단히 말해 2개의 UTF-16의 surrogate 코드유닛 2개를 이용해 20비트의 코드포인트를 표현한다. *기억 (이는 하단에 자세히 서술한다.)..

마지막 포스팅 이후 어느덧 5개월의 시간이 흘렀는데, 사실 이 사이에 회사 이직과 적응을 하느랴 블로그를 신경쓰지 못했습니다.기존에는 LLM 챗봇 구축을 위한 서비스를 개발했다면, 현재는 RAG성능을 극대화 할 수 있는 Backbone모델의 성능을 높이는 업무를 담당하고있습니다.정확한 업무는 말할 수 없으나, 다행스럽게도 특정 도메인에서 동료와 함께 기존 foundation모델 보다 좋은 성능을 달성할 수 있었고, 지금은 이보다 더 높은 성능을 달성하기 위해 다양한 기법을 적용하며 실험하고있습니다.개인 공부 겸 hard negative mining을 간단히 정리합니다. Hard Negative란?Text Embedding모델을 파인튜닝 할 때, MLM(Masked Language Modeling), NL..
여러분의 소스코드가 담겨있는 Docker Image를 성공적으로 빌드했습니다. ipynb가 아닌 이상 학습을 실행하는 코드와 추론을 진행하는 코드가 별도로 존재하고, 특정 명령을 통해 수행될 것입니다. [LLM] Docker compose를 활용한 sLLM 파인튜닝 및 추론 자동화하기 上편 - Docker Image 빌드대학생때 부터 AI만 전공해오다보니 백엔드 지식이 턱없이 부족한 것을 깨닫게 해준 프로젝트를 진행해왔습니다.그 중 Docker를 활용하여 LLM파인튜닝 및 추론단계를 자동화 할 수 있도록 만들어sjkoding.tistory.com LLM파인튜닝 특성상 환경을 분할할 필요가 적습니다. train타입과 inference타입의 환경은 거의 동일하며 소스코드만 차이가 나기 때문에 이 때문에 ..

대학생때 부터 AI만 전공해오다보니 백엔드 지식이 턱없이 부족한 것을 깨닫게 해준 프로젝트를 진행해왔습니다.그 중 Docker를 활용하여 LLM파인튜닝 및 추론단계를 자동화 할 수 있도록 만들어야했는데 제가 삽질하면서 얻은 내용들을 여기에 정리해보고자 합니다. LLM특성상 GPU환경을 사용해야만 합니다. 저는 하나의 GPU환경과 모델에 필요한 라이브러리를 하나의 Image로 만들고, trainable data 생성, LLM Finetuning(LoRA), LLM Inference를 진행하는 3개의 컨테이너를 만들어 Docker compose를 활용해 순차적으로 실행되게끔 자동화를 시켜볼 예정입니다. 준비물: Docker엔진 Docker compose(v2), 학습용 데이터 코드(json), LLM 파인튜..

2024년 9월 20일, Claude 제작사의 Anthropic사에서 RAG성능을 향상시키기 위한 기법을 공개했습니다. Claude에 사용된 프롬프트들을 공개하는 등, 본인들이 가지고있는 기술들을 공개하는 데에 꺼리지 않는 모습을 보이는 것 같습니다. (OpenAI는 이런 적이 있었나..) Introducing Contextual RetrievalAnthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.www.anthropic.com( 해당 포스팅은 통번역이 아닙니다. 제 경험과 주관이 내포되어있기 때문에 원문과 함께 구독하시면 효과적입니다. ) ..

Selective Reflection Tuning Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning (2024.06)LLM Fine-tuning의 성능 향상을 위해 데이터 품질을 향상하려는 시도, 그리고 데이터 생성에 대한 다양한 방법론이 연구되어왔습니다. 하지만 이는 모두 학생모델(이하 Student, 주로 Llama-3.1 8B, Solar 10.8B 등등의 sLM급 모델)의 호환성을 고려하지 않았다는 것을 핵심으로 이야기합니다. 이는 즉 Student의 제한된 성능때문에 GPT4o등이 만들어낸 고품질 프롬프트로 fine-tuning을 진행하더라도 이를 모방할 수 없다라는 의미로 받아들여집니다...

https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct meta-llama/Meta-Llama-3.1-8B-Instruct · Hugging FaceThe information you provide will be collected, stored, processed and shared in accordance with the Meta Privacy Policy. LLAMA 3.1 COMMUNITY LICENSE AGREEMENT Llama 3.1 Version Release Date: July 23, 2024 "Agreement" means the terms and conditions for use,huggingface.co 한국 시간으로 7월 24일 ..
langchain의 LlamaCPP를 사용하다가. 테스트로 vllm을 사용했을 때 평소 13GB정도 먹었던 애가 느닷없이 70GB를 넘게 잡아먹었다.먼저 VLLM(Very Large Language Models)은 대규모 언어 모델의 효율적인 추론을 위해 설계된 시스템이다. 특히, VLLM은 모델 추론 중에 반복적으로 참조되는 데이터의 캐싱을 위해 키-값 캐시(KV Cache)를 사용한다. KV Cache는 트랜스포머 모델의 각 레이어에서 생성된 키(Key)와 값(Value) 텐서를 저장하여, 동일한 입력에 대해 반복적인 계산을 피하고 성능을 최적화한다.KV Cache는 다음과 같은 장점을 제공한다:추론 속도 향상: 반복되는 계산을 줄여 추론 속도를 크게 향상시킨다.메모리 사용 최적화: 캐싱을 통해 필요..