← 태그 목록

#vram

3개의 포스트

10. 모델 파일: 포맷, 양자화, 서빙 구조

ollama가 모델을 어떻게 로드하는지. 양자화가 뭐고 어떤 레벨을 선택해야 하는지. GGUF vs SafeTensors. ollama의 내부 서빙 구조.

DevOps·2026. 05. 05. PM 10:00(수정됨)·2분·

·@시스템 엔지니어가 해부하는 LLM의 모든 것·

#GGUF#SafeTensors#양자화+5

9. 하드웨어: GPU, 메모리, 속도의 관계

LLM에 GPU가 필요한 이유. 진짜 병목이 메모리 대역폭인 이유. 내 GPU에서 어떤 모델을 돌릴 수 있는지 VRAM 사용량을 직접 계산하는 방법.

DevOps·2026. 04. 28. PM 10:00(수정됨)·3분·

·@시스템 엔지니어가 해부하는 LLM의 모든 것·

#GPU#VRAM#메모리대역폭+5

6. 추론: Prefill, Decode, KV 캐시

LLM이 토큰을 생성할 때 왜 전체를 다시 계산하지 않는지. KV 캐시의 동작 원리, VRAM 비용, Prefill과 Decode의 차이.

DevOps·2026. 04. 07. PM 10:00(수정됨)·2분·

·@시스템 엔지니어가 해부하는 LLM의 모든 것·

#KV캐시#Prefill#Decode+5