9. 하드웨어: GPU, 메모리, 속도의 관계LLM에 GPU가 필요한 이유. 진짜 병목이 메모리 대역폭인 이유. 내 GPU에서 어떤 모델을 돌릴 수 있는지 VRAM 사용량을 직접 계산하는 방법.DevOps·2026. 04. 28. PM 10:00(수정됨)·3분·2·@시스템 엔지니어가 해부하는 LLM의 모든 것·#GPU#VRAM#메모리대역폭+5
6. 추론: Prefill, Decode, KV 캐시LLM이 토큰을 생성할 때 왜 전체를 다시 계산하지 않는지. KV 캐시의 동작 원리, VRAM 비용, Prefill과 Decode의 차이.DevOps·2026. 04. 07. PM 10:00(수정됨)·2분·0·@시스템 엔지니어가 해부하는 LLM의 모든 것·#KV캐시#Prefill#Decode+5