@시스템 엔지니어가 해부하는 LLM의 모든 것

13개의 포스트

1. LLM은 텍스트를 어떻게 처리하는가

LLM이 텍스트 한 줄을 받아서 다음 토큰을 예측하기까지의 전체 과정을 4단계로 따라간다. 토크나이저, 임베딩, 트랜스포머 레이어, 출력까지 "OOM killer가 nginx를" 한 문장이 모델 안에서 겪는 여행.

DevOps·2026. 03. 03. PM 10:00(수정됨)·3분·

·@시스템 엔지니어가 해부하는 LLM의 모든 것·

#LLM#트랜스포머#토크나이저+5

2. 입력 처리: 텍스트가 숫자가 되기까지

LLM에 텍스트가 들어가면 가장 먼저 일어나는 일. 토크나이저가 문자열을 정수로, 임베딩이 정수를 벡터로 변환하는 과정.

DevOps·2026. 03. 10. PM 10:00(수정됨)·3분·

·@시스템 엔지니어가 해부하는 LLM의 모든 것·

#토크나이저#BPE#임베딩+5

3. 어텐션: 새 토큰이 문맥을 얻는 과정

LLM 어텐션의 실제 계산 과정을 숫자로 추적한다. Q·K 내적이 주목도를 만들고, V의 가중합이 문맥을 만드는 과정. 멀티 헤드가 필요한 이유, 스케일링(√d), 잔차 연결까지.

DevOps·2026. 03. 17. PM 10:00(수정됨)·3분·

·@시스템 엔지니어가 해부하는 LLM의 모든 것·

#어텐션#Q/K/V#멀티헤드+5

4. FFN: 지식이 저장된 곳

LLM의 FFN이 어텐션과 어떻게 역할을 나누는지. 확장→압축 구조가 왜 "지식 저장소"인지. 분산 표현의 원리, LayerNorm의 역할까지.

DevOps·2026. 03. 24. PM 10:00(수정됨)·2분·

·@시스템 엔지니어가 해부하는 LLM의 모든 것·

#FFN#지식저장소#뉴런+5

5. 조립: 토큰이 쌓이고 레이어가 깊어지는 과정

어텐션과 FFN을 조립하는 과정

DevOps·2026. 03. 31. PM 10:00(수정됨)·2분·

·@시스템 엔지니어가 해부하는 LLM의 모든 것·

#LLM#트랜스포머

6. 추론: Prefill, Decode, KV 캐시

LLM이 토큰을 생성할 때 왜 전체를 다시 계산하지 않는지. KV 캐시의 동작 원리, VRAM 비용, Prefill과 Decode의 차이.

DevOps·2026. 04. 07. PM 10:00(수정됨)·2분·

·@시스템 엔지니어가 해부하는 LLM의 모든 것·

#KV캐시#Prefill#Decode+5

7. 출력 제어: 확률에서 토큰을 고르는 방법

LLM이 확률 분포에서 토큰을 고르는 방법. temperature, top_p, top_k가 각각 뭐고 언제 쓰는지.

DevOps·2026. 04. 14. PM 10:00(수정됨)·2분·

·@시스템 엔지니어가 해부하는 LLM의 모든 것·

#temperature#top_p#top_k+5

8. 학습: 30억 개의 숫자가 조정되는 과정

LLM의 30억 개 파라미터가 만들어지는 과정. 자기지도 학습으로 학습 데이터를 자동 생성하고, 역전파로 gradient를 구하고, 극도로 미세한 업데이트를 수조 번 반복하는 과정.

DevOps·2026. 04. 21. PM 10:00(수정됨)·2분·

·@시스템 엔지니어가 해부하는 LLM의 모든 것·

#학습#역전파#gradient+5

9. 하드웨어: GPU, 메모리, 속도의 관계

LLM에 GPU가 필요한 이유. 진짜 병목이 메모리 대역폭인 이유. 내 GPU에서 어떤 모델을 돌릴 수 있는지 VRAM 사용량을 직접 계산하는 방법.

DevOps·2026. 04. 28. PM 10:00(수정됨)·3분·

·@시스템 엔지니어가 해부하는 LLM의 모든 것·

#GPU#VRAM#메모리대역폭+5

10. 모델 파일: 포맷, 양자화, 서빙 구조

ollama가 모델을 어떻게 로드하는지. 양자화가 뭐고 어떤 레벨을 선택해야 하는지. GGUF vs SafeTensors. ollama의 내부 서빙 구조.

DevOps·2026. 05. 05. PM 10:00(수정됨)·2분·

·@시스템 엔지니어가 해부하는 LLM의 모든 것·

#GGUF#SafeTensors#양자화+5

11. 실전 적용: 모델 선택부터 파이프라인까지

LLM을 실무에 적용하는 전략. 프롬프트 설계, RAG vs 파인튜닝 선택 기준, 계층형 파이프라인, 컨텍스트 윈도우 관리.

DevOps·2026. 05. 12. PM 10:00(수정됨)·2분·

·@시스템 엔지니어가 해부하는 LLM의 모든 것·

#프롬프트설계#RAG#파인튜닝+5

부록1. 왜 트랜스포머인가: RNN에서 Mamba까지

트랜스포머 이전의 RNN이 왜 한계에 부딪혔는지. 병렬화 불가, 장거리 의존성, 고정 상태 벡터. 트랜스포머가 이걸 어떻게 해결했고, Mamba가 어디로 가고 있는지.

DevOps·2026. 05. 19. PM 10:00(수정됨)·2분·

·@시스템 엔지니어가 해부하는 LLM의 모든 것·

#RNN#LSTM#트랜스포머+5

부록2. GPU 인프라: 학습 클러스터와 추론 서빙의 실체

대규모 LLM 학습 클러스터의 실체. 데이터센터 전력/냉각, GPU 간 네트워크(IB/RoCE), GPU 서버 구성, 체크포인트 스토리지. 학습과 추론 인프라의 설계 차이.

DevOps·2026. 05. 26. PM 10:00(수정됨)·3분·

·@시스템 엔지니어가 해부하는 LLM의 모든 것·

#GPU클러스터#데이터센터#InfiniBand+6