10. 모델 파일: 포맷, 양자화, 서빙 구조ollama가 모델을 어떻게 로드하는지. 양자화가 뭐고 어떤 레벨을 선택해야 하는지. GGUF vs SafeTensors. ollama의 내부 서빙 구조.DevOps·2026. 05. 05. PM 10:00(수정됨)·2분·2·@시스템 엔지니어가 해부하는 LLM의 모든 것·#GGUF#SafeTensors#양자화+5
9. 하드웨어: GPU, 메모리, 속도의 관계LLM에 GPU가 필요한 이유. 진짜 병목이 메모리 대역폭인 이유. 내 GPU에서 어떤 모델을 돌릴 수 있는지 VRAM 사용량을 직접 계산하는 방법.DevOps·2026. 04. 28. PM 10:00(수정됨)·3분·2·@시스템 엔지니어가 해부하는 LLM의 모든 것·#GPU#VRAM#메모리대역폭+5
6. 추론: Prefill, Decode, KV 캐시LLM이 토큰을 생성할 때 왜 전체를 다시 계산하지 않는지. KV 캐시의 동작 원리, VRAM 비용, Prefill과 Decode의 차이.DevOps·2026. 04. 07. PM 10:00(수정됨)·2분·0·@시스템 엔지니어가 해부하는 LLM의 모든 것·#KV캐시#Prefill#Decode+5