롱타임노씨 blog
홈최근 포스트짧은 생각
Development10DevOps16Infrastructure11Life17
@간헐적 궁금증3
@나다운 부자 되기17
@바이브 코딩 생존 가이드7
@시스템 엔지니어가 해부하는 LLM의 모든 것12
@시스템엔지니어가 알려주는 스토리지의 모든 것8
@시스템엔지니어로 살아남기 — AI Ops 편4
태그
#시스템엔지니어#llm#스토리지#바이브코딩#ai개발#개발방법론#트랜스포머#ai-ops#ollama#경제적자유#사이드프로젝트#파이어족#vram#gpu#설계#rag#모델선택#claude#sre#메모리대역폭+195
로그인
테마
홈최근 포스트짧은 생각
← 태그 목록

#추론

1개의 포스트

6. 추론: Prefill, Decode, KV 캐시

LLM이 토큰을 생성할 때 왜 전체를 다시 계산하지 않는지. KV 캐시의 동작 원리, VRAM 비용, Prefill과 Decode의 차이.

DevOps·2026. 04. 07. PM 10:00(수정됨)·2분·
0
·@시스템 엔지니어가 해부하는 LLM의 모든 것·
#KV캐시#Prefill#Decode+5