10. 모델 파일: 포맷, 양자화, 서빙 구조ollama가 모델을 어떻게 로드하는지. 양자화가 뭐고 어떤 레벨을 선택해야 하는지. GGUF vs SafeTensors. ollama의 내부 서빙 구조.DevOps·2026. 05. 05. PM 10:00(수정됨)·2분·2·@시스템 엔지니어가 해부하는 LLM의 모든 것·#GGUF#SafeTensors#양자화+5
6. 추론: Prefill, Decode, KV 캐시LLM이 토큰을 생성할 때 왜 전체를 다시 계산하지 않는지. KV 캐시의 동작 원리, VRAM 비용, Prefill과 Decode의 차이.DevOps·2026. 04. 07. PM 10:00(수정됨)·2분·0·@시스템 엔지니어가 해부하는 LLM의 모든 것·#KV캐시#Prefill#Decode+5
2. 입력 처리: 텍스트가 숫자가 되기까지LLM에 텍스트가 들어가면 가장 먼저 일어나는 일. 토크나이저가 문자열을 정수로, 임베딩이 정수를 벡터로 변환하는 과정.DevOps·2026. 03. 10. PM 10:00(수정됨)·3분·1·@시스템 엔지니어가 해부하는 LLM의 모든 것·#토크나이저#BPE#임베딩+5
1. LLM은 텍스트를 어떻게 처리하는가LLM이 텍스트 한 줄을 받아서 다음 토큰을 예측하기까지의 전체 과정을 4단계로 따라간다. 토크나이저, 임베딩, 트랜스포머 레이어, 출력까지 "OOM killer가 nginx를" 한 문장이 모델 안에서 겪는 여행.DevOps·2026. 03. 03. PM 10:00(수정됨)·3분·1·@시스템 엔지니어가 해부하는 LLM의 모든 것·#LLM#트랜스포머#토크나이저+5