시스템 엔지니어를 위한 NVIDIA 서버 GPU 세대별 가이드 — Tesla에서 Rubin까지, 꼭 알아야 할 개념들
NVIDIA 서버 GPU의 역사를 세대별로 따라가며, 각 세대에서 등장한 핵심 개념(CUDA, Tensor Core, NVLink, MIG, Transformer Engine, HBM)이 왜 중요하고 시스템 엔지니어에게 어떤 의미가 있는지를 정리한 글.
이 글은 "NVIDIA GPU의 내부 아키텍처를 깊이 파자"가 아니다. 시스템 엔지니어 관점에서 **"이 용어가 왜 등장했고, 도입/운영할 때 왜 알아야 하는가"**를 세대별로 따라가는 글이다. 가장 초기 서버용 GPU부터 최신 세대까지, 각 세대에서 "게임 체인저"가 된 개념들을 중심으로 정리한다.
세대별 한눈에 보기
NVIDIA 서버 GPU 아키텍처 변천:
2008 Tesla (아키텍처명) ── CUDA 등장. GPU를 범용 연산에 쓰기 시작.
│
2012 Kepler (K80) ── GPU Boost, 듀얼 GPU. HPC 본격화.
│
2016 Pascal (P100) ── HBM2 최초 도입. NVLink 1.0 등장.
│
2017 Volta (V100) ── ★ Tensor Core 최초 등장. AI 학습의 시작.
│
2020 Ampere (A100) ── ★ MIG 등장. TF32/BF16. 멀티테넌시.
│
2022 Hopper (H100) ── ★ Transformer Engine. FP8. HBM3.
│
2024 Blackwell (B200) ── 멀티다이 GPU. FP4. NVL72 랙스케일.
│
2026 Rubin ── HBM4. NVLink 6. Vera CPU. 랙=컴퓨터.
★ = 시스템 엔지니어가 반드시 알아야 할 전환점2008~2014: Tesla/Fermi/Kepler — "GPU로 연산을 한다고?"
서버용 GPU의 시작이다. 이 시기의 핵심 개념은 CUDA다.
GPU는 원래 그래픽(게임, 영상)을 위한 장치였다. 수천 개의 작은 코어가 "같은 연산을 동시에" 하는 구조(SIMD)가 과학 계산에도 유용하다는 걸 알게 되면서, NVIDIA가 2007년에 CUDA(Compute Unified Device Architecture)를 발표했다. GPU를 범용 연산(GPGPU)에 쓸 수 있게 해주는 프로그래밍 모델이다.
시스템 엔지니어가 알아야 할 것:
CUDA 코어 = GPU의 기본 연산 단위.
GPU의 "코어 수"라고 하면 CUDA 코어 수를 말한다.
V100은 5,120개, A100은 6,912개, H100은 16,896개.
하지만 CUDA 코어 수가 곧 성능은 아니다.
세대가 올라가면서 "Tensor Core"라는 별도의 연산 유닛이 등장하고,
AI 학습/추론의 실제 성능은 Tensor Core가 결정한다.
CUDA 코어 수만 보고 GPU 성능을 비교하면 안 된다.이 시기의 서버 GPU는 주로 HPC(High Performance Computing) 용도였다. 기상 시뮬레이션, 분자 동역학, 금융 모델링. AI 학습은 아직 본격화되기 전이다. Tesla K80(2014, Kepler)은 듀얼 GPU 구조(카드 1장에 GPU 2개)로 24GB GDDR5 메모리를 제공했고, 클라우드(AWS p2 인스턴스)에서 오래 쓰였다.
2016: Pascal (P100) — HBM과 NVLink의 등장
Pascal 세대의 Tesla P100에서 두 가지 중요한 개념이 등장한다.
HBM(High Bandwidth Memory). GPU 옆에 메모리를 수직으로 쌓아올려서 대역폭을 극적으로 올리는 기술이다. P100은 HBM2를 최초로 채택해서 720 GB/s의 메모리 대역폭을 달성했다.
왜 HBM이 중요한가:
GPU 연산은 "데이터를 얼마나 빨리 가져올 수 있는가"에 병목이 걸린다.
아무리 코어가 많아도 데이터를 못 가져오면 코어가 놀게 된다.
GDDR5 (K80): 480 GB/s
HBM2 (P100): 720 GB/s
HBM2e (A100): 2,039 GB/s
HBM3 (H100): 3,350 GB/s
HBM3e (H200): 4,800 GB/s
HBM4 (Rubin): ~22,000 GB/s (랙 합산)
세대가 올라갈수록 메모리 대역폭이 급격히 증가한다.
GPU 스펙을 볼 때 "메모리 용량"도 중요하지만,
"메모리 대역폭(GB/s)"이 실제 성능에 더 직결된다.NVLink. GPU 간 직접 통신 인터커넥트다. 기존에는 GPU끼리 데이터를 주고받으려면 PCIe를 거쳐야 했는데, PCIe 대역폭이 병목이었다. NVLink는 GPU를 직접 연결해서 훨씬 빠른 통신을 가능하게 한다.
NVLink 세대별 대역폭 (GPU당):
NVLink 1.0 (Pascal): 160 GB/s
NVLink 2.0 (Volta): 300 GB/s
NVLink 3.0 (Ampere): 600 GB/s
NVLink 4.0 (Hopper): 900 GB/s
NVLink 5.0 (Blackwell): 1,800 GB/s
NVLink 6.0 (Rubin): 3,600 GB/s
왜 중요한가:
AI 학습은 GPU 여러 장이 데이터를 주고받으면서 병렬로 진행한다.
GPU 간 통신이 느리면 GPU가 아무리 빨라도 전체가 느려진다.
"GPU 8장짜리 서버"를 도입할 때, GPU 단일 성능보다
GPU 간 연결(NVLink vs PCIe)이 더 중요할 수 있다.
NVLink 연결: DGX, HGX 같은 고급 서버 플랫폼.
PCIe 연결: 일반 서버에 GPU를 꽂는 방식.
→ 같은 GPU라도 NVLink vs PCIe냐에 따라 멀티GPU 성능이 2~3배 차이.2017: Volta (V100) — Tensor Core, AI 시대의 시작
Volta는 서버 GPU 역사에서 가장 중요한 전환점이다. Tensor Core가 처음 등장했다.
Tensor Core란:
CUDA 코어: 스칼라 연산. 숫자 하나씩 계산.
Tensor Core: 행렬 연산. 4×4 행렬을 한 번에 계산.
AI(딥러닝)의 핵심 연산은 행렬 곱셈(Matrix Multiply)이다.
Tensor Core는 이 행렬 곱셈을 전용 하드웨어로 가속한다.
V100의 Tensor Core(1세대): FP16 행렬 연산.
→ 딥러닝 학습 속도가 이전 세대(P100) 대비 ~5배 향상.
→ "AI 학습에 GPU를 쓴다"가 여기서부터 폭발적으로 확산.시스템 엔지니어 관점에서 Tensor Core가 중요한 이유:
GPU 스펙을 볼 때 "TFLOPS"가 여러 개 나온다:
FP64 TFLOPS — 과학 계산(HPC)용.
FP32 TFLOPS — 범용 연산.
FP16 TFLOPS — AI 학습/추론 (Tensor Core 사용 시).
TF32, BF16, FP8, FP4 — 세대가 올라가며 추가된 정밀도.
AI 팀이 "성능"이라고 하면 보통 FP16이나 FP8 TFLOPS를 말한다.
HPC 팀이 "성능"이라고 하면 FP64 TFLOPS를 말한다.
같은 GPU인데 "어떤 TFLOPS?"에 따라 숫자가 10배 이상 차이난다.
V100: FP64 7.8 TFLOPS / FP16 Tensor 125 TFLOPS
H100: FP64 67 TFLOPS / FP16 Tensor 1,979 TFLOPS
"H100이 V100보다 몇 배 빠른가?"는
"무슨 연산 기준?"에 따라 답이 완전히 다르다.V100은 16GB 또는 32GB HBM2를 탑재했다. NVLink 2.0으로 GPU당 300 GB/s. DGX-1 V100은 GPU 8장을 NVLink로 묶은 시스템으로, 이 시기의 AI 학습 표준이 되었다.
2020: Ampere (A100) — MIG와 멀티테넌시
A100은 두 가지 중요한 개념을 가져왔다.
MIG(Multi-Instance GPU). GPU 1장을 최대 7개의 독립된 인스턴스로 나눌 수 있는 기술이다.
MIG가 왜 필요한가:
H100 1장 = 80GB 메모리, 수천 TFLOPS.
추론 서비스 하나가 GPU의 20%만 쓴다면?
나머지 80%는 놀고 있다. 비싼 GPU를 낭비하는 거다.
MIG를 쓰면:
┌─────────────────────────────────────────┐
│ 물리 GPU 1장 (A100 80GB) │
│ ┌──────┐┌──────┐┌──────┐┌──────┐ │
│ │ MIG 1││ MIG 2││ MIG 3││ MIG 4│ ... │
│ │ 10GB ││ 10GB ││ 20GB ││ 40GB │ │
│ │추론A ││추론B ││학습C ││학습D │ │
│ └──────┘└──────┘└──────┘└──────┘ │
└─────────────────────────────────────────┘
각 인스턴스는 완전히 격리된다.
메모리도, 연산도, 에러도 격리.
하나가 죽어도 다른 인스턴스에 영향 없음.
시스템 엔지니어 관점:
· K8s에서 GPU를 나눠 쓸 때 MIG가 답이 될 수 있다.
· nvidia-smi mig 명령으로 설정.
· MIG를 안 쓰면 GPU 1장 = 1 워크로드. 낭비.
· MIG를 쓰면 GPU 활용률을 극대화할 수 있다.
· 단, 학습(Training)은 보통 GPU 전체가 필요.
MIG는 추론(Inference) 환경에서 더 유용하다.A100은 또한 **TF32(TensorFloat-32)**와 BF16(BFloat16), 그리고 구조적 희소성(Sparsity) 가속을 도입했다. 이전 세대보다 다양한 정밀도에서 빠르게 연산할 수 있게 됐다. 메모리는 40GB 또는 80GB HBM2e, NVLink 3.0으로 600 GB/s.
2022: Hopper (H100) — Transformer Engine과 FP8
H100은 "LLM(대규모 언어 모델) 시대의 GPU"다. ChatGPT가 등장한 시기와 맞물려 폭발적 수요를 맞았다.
핵심 개념은 Transformer Engine이다.
Transformer Engine이란:
GPT, LLaMA 같은 LLM은 "Transformer" 아키텍처를 쓴다.
Transformer의 핵심 연산(Attention, MLP)을 하드웨어 수준에서
가속하는 전용 엔진이다.
FP8(8비트 부동소수점)을 도입해서,
학습 정밀도를 낮추면서도 정확도를 유지하는 방식으로
처리량을 크게 늘렸다.
FP16 → FP8로 비트 수가 절반이면?
→ 같은 메모리에 2배의 데이터를 넣을 수 있고
→ 연산 처리량도 거의 2배가 된다.
→ 정확도가 떨어질 수 있지만, Transformer Engine이
자동으로 FP8과 FP16을 레이어별로 전환해서 정확도를 유지. H100 스펙에서 시스템 엔지니어가 봐야 할 것:
· 메모리: 80GB HBM3 (3,350 GB/s)
→ 대형 모델(70B 파라미터)도 GPU 1장에 올릴 수 있다.
→ H200은 같은 Hopper인데 141GB HBM3e. 메모리만 늘린 리프레시.
· NVLink 4.0: 900 GB/s
→ 8장 NVLink 연결 시 GPU 간 통신 병목이 크게 줄어듦.
· SXM vs PCIe 폼팩터:
H100 SXM = NVLink 연결. 학습에 적합. DGX/HGX 서버용.
H100 PCIe = PCIe 연결. 추론이나 소규모 학습에.
같은 H100인데 SXM이 PCIe보다 멀티GPU 성능이 훨씬 높다.
· TDP: SXM 700W. PCIe 350W.
→ GPU 8장이면 전원만 5.6kW. 서버 전체는 10kW+.
→ 전원/냉각 설계가 GPU 서버의 핵심 과제 (HW 시리즈 6편).2024: Blackwell (B200/GB200) — 멀티다이와 랙스케일
Blackwell에서 GPU의 단위가 바뀐다. "카드 1장"이 아니라 **"랙 전체"**가 하나의 컴퓨터가 된다.
Blackwell의 핵심 변화:
1. 멀티다이 GPU
GPU 다이 2개를 하나의 패키지에 넣었다.
단일 다이로는 물리적 한계(레티클 크기)에 도달했기 때문.
B200 = 2개 다이, 2,080억 트랜지스터.
→ 이전까지 GPU는 항상 "다이 1개 = GPU 1개"였다.
2. FP4 추론
FP8에서 한 단계 더. 4비트 연산.
추론 처리량이 Hopper 대비 수배 향상.
학습은 여전히 FP8/FP16이지만, 추론은 FP4로 갈 수 있다.
3. Grace CPU + Blackwell GPU = GB200 Superchip
NVIDIA가 자체 설계한 ARM CPU(Grace)와
Blackwell GPU를 NVLink-C2C로 직접 연결.
PCIe를 거치지 않으니 CPU-GPU 간 대역폭이 900 GB/s.
→ 기존: CPU ──PCIe(64 GB/s)── GPU
→ GB200: Grace ──NVLink-C2C(900 GB/s)── B200
4. NVL72
GPU 72장을 NVLink 5.0으로 하나의 도메인에 묶는다.
랙 1개가 하나의 거대한 GPU처럼 동작한다.
→ "서버 1대"가 아니라 "랙 1대"가 배포 단위.
→ 시스템 엔지니어에게: 전원(~70kW/랙), 냉각(액냉 필수),
네트워크(NVLink + InfiniBand) 설계가 완전히 달라진다.2026: Rubin — 랙이 곧 컴퓨터
Rubin은 Blackwell의 다음 세대다. 2026년 하반기 출하 예정.
Rubin의 핵심:
· Rubin GPU: 3,360억 트랜지스터. 2개 다이.
50 PFLOPS(FP4). Blackwell 대비 ~2.5배.
· HBM4: 288GB/GPU. 대역폭 대폭 증가.
→ 대형 모델(수백B 파라미터)을 적은 GPU로 처리 가능.
· Vera CPU: NVIDIA 자체 ARM CPU. 88코어.
Grace의 후속. 1.5TB LPDDR5x.
NVLink-C2C 1.8 TB/s로 GPU와 연결.
· NVLink 6.0: GPU당 3.6 TB/s.
NVL72 랙에서 260 TB/s의 스케일업 대역폭.
· Vera Rubin NVL72 랙:
72 Rubin GPU + 36 Vera CPU.
3.6 EFLOPS(FP4 추론) / 2.5 EFLOPS(FP8 학습).
20.7TB HBM4 + 54TB LPDDR5x.
시스템 엔지니어에게 의미:
· 전력: 랙당 수백 kW. 액냉이 선택이 아니라 필수.
· "서버 1대 도입"이 아니라 "랙 시스템 도입".
전원, 냉각, 네트워크를 랙 단위로 설계해야 한다.
· 2027년에는 Rubin Ultra(NVL576)가 예정.
576 GPU가 하나의 도메인. 15 EFLOPS.세대별 비교 — 시스템 엔지니어가 볼 숫자들
┌────────┬──────┬────────┬───────────┬────────┬───────┬──────┐
│ 세대 │ 연도 │대표 GPU │ 메모리 │ NVLink │ TDP │ 핵심 │
│ │ │ │ │ (GPU당)│ (W) │ 신규 │
├────────┼──────┼────────┼───────────┼────────┼───────┼──────┤
│Kepler │ 2014 │ K80 │ 24GB GDDR5│ 없음 │ 300 │ CUDA │
│ │ │ │ 480 GB/s │ │ │ Boost│
├────────┼──────┼────────┼───────────┼────────┼───────┼──────┤
│Pascal │ 2016 │ P100 │ 16GB HBM2 │ 160 │ 300 │ HBM │
│ │ │ │ 720 GB/s │ GB/s │ │NVLink│
├────────┼──────┼────────┼───────────┼────────┼───────┼──────┤
│Volta │ 2017 │ V100 │ 32GB HBM2 │ 300 │ 300 │Tensor│
│ │ │ │ 900 GB/s │ GB/s │ │ Core │
├────────┼──────┼────────┼───────────┼────────┼───────┼──────┤
│Ampere │ 2020 │ A100 │ 80GB HBM2e│ 600 │ 400 │ MIG │
│ │ │ │ 2,039 GB/s│ GB/s │ │TF32 │
├────────┼──────┼────────┼───────────┼────────┼───────┼──────┤
│Hopper │ 2022 │ H100 │ 80GB HBM3 │ 900 │ 700 │Trans-│
│ │ │ │ 3,350 GB/s│ GB/s │ │former│
│ │ │ │ │ │ │Engine│
├────────┼──────┼────────┼───────────┼────────┼───────┼──────┤
│Hopper │ 2024 │ H200 │141GB HBM3e│ 900 │ 700 │메모리│
│refresh │ │ │ 4,800 GB/s│ GB/s │ │증량 │
├────────┼──────┼────────┼───────────┼────────┼───────┼──────┤
│Blackwell│2024 │ B200 │192GB HBM3e│ 1,800 │ 1,000 │멀티 │
│ │ │ │ 8,000 GB/s│ GB/s │ │다이 │
│ │ │ │ │ │ │FP4 │
├────────┼──────┼────────┼───────────┼────────┼───────┼──────┤
│Rubin │ 2026 │Rubin │288GB HBM4 │ 3,600 │ TBD │HBM4 │
│ │ │ │ ~6,000 GB/s│ GB/s │ │Vera │
│ │ │ │ │ │ │CPU │
└────────┴──────┴────────┴───────────┴────────┴───────┴──────┘
트렌드:
· 메모리 용량: 16GB → 288GB (18배, 8년간)
· 메모리 대역폭: 720 → 6,000+ GB/s (8배+)
· NVLink: 160 → 3,600 GB/s (22배)
· TDP: 300W → 1,000W+ (3배+)
메모리와 인터커넥트가 연산만큼(어쩌면 더) 빠르게 성장했다.
"코어 수"가 아니라 "데이터를 얼마나 빨리 먹일 수 있는가"가
GPU 성능의 진짜 병목이기 때문이다.GPU 서버 도입할 때 시스템 엔지니어가 확인해야 할 것
1. 용도가 학습인가 추론인가
┌──────────────┬──────────────────┬──────────────────┐
│ │ 학습 (Training) │ 추론 (Inference) │
├──────────────┼──────────────────┼──────────────────┤
│ GPU 수 │ 많이 (8장+) │ 적게 (1~2장) │
├──────────────┼──────────────────┼──────────────────┤
│ 메모리 │ 클수록 좋음 │ 모델 크기에 맞게 │
├──────────────┼──────────────────┼──────────────────┤
│ GPU 간 연결 │ NVLink 필수 │ PCIe도 가능 │
├──────────────┼──────────────────┼──────────────────┤
│ 정밀도 │ FP16/BF16/FP8 │ FP8/FP4/INT8 │
├──────────────┼──────────────────┼──────────────────┤
│ MIG │ 보통 안 씀 │ 유용 (GPU 분할) │
├──────────────┼──────────────────┼──────────────────┤
│ 서버 간 연결 │ InfiniBand/RoCE │ 이더넷도 가능 │
└──────────────┴──────────────────┴──────────────────┘
2. 전원과 냉각을 먼저 확인한다
· H100 8장 서버: ~10kW. 일반 서버(0.5~1kW)의 10배.
· B200 8장: ~12~15kW.
· NVL72 랙: ~70kW+.
· "이 랙에 넣을 수 있는가?" → 전력 용량 확인이 첫 번째.
· 냉각: 공냉으로 10kW까지는 가능하지만 빠듯하다.
15kW 이상이면 액냉을 검토해야 한다.
3. GPU 간 연결을 확인한다
· 같은 H100이라도 SXM(NVLink)과 PCIe는 다른 제품이다.
· 학습용이면 반드시 NVLink(SXM 폼팩터).
· 추론만이면 PCIe도 괜찮다.
· 서버 간 통신: InfiniBand(학습) vs 이더넷(추론).
대규모 학습 클러스터면 InfiniBand가 사실상 필수.
4. GPU 메모리 용량이 모델 크기를 감당하는가
· 7B 모델(FP16): ~14GB → GPU 1장이면 충분.
· 70B 모델(FP16): ~140GB → H100 80GB 2장, 또는 H200 1장.
· 405B 모델: H100 8장으로도 빠듯.
· "모델이 GPU 메모리에 안 들어가면?" → GPU를 더 추가하거나
양자화(FP8, FP4)로 모델 크기를 줄인다.nvidia-smi — 시스템 엔지니어의 기본 도구
GPU 서버를 운영하면 nvidia-smi를 매일 본다.
$ nvidia-smi
+-----------------------------------------------------------------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|=============================================================================|
| 0 NVIDIA H100 80GB On | 00000000:1A:00.0 Off | 0 |
| N/A 42C P0 72W / 700W | 45312MiB / 81559MiB | 78% Default |
+-----------------------------------------------------------------------------+
시스템 엔지니어가 봐야 할 것:
· Temp: GPU 온도. 80°C 이상이면 throttling 시작.
· Pwr: 72W / 700W = 현재 전력 / 최대 TDP.
700W에 가까우면 풀로드 상태.
· Memory-Usage: 45GB / 81GB = VRAM 사용량.
가득 차면 OOM 에러. 서비스가 죽는다.
· GPU-Util: 78%. GPU 코어 활용률.
낮으면 GPU가 데이터를 기다리고 있는 것 (IO 병목).
· ECC: Uncorrectable ECC 에러가 있으면 GPU 교체 신호.
$ nvidia-smi topo -m
→ GPU 간 연결 토폴로지 확인. NVLink vs PCIe.
$ nvidia-smi mig -lgi
→ MIG 인스턴스 현황 확인.NVIDIA 서버 GPU는 10년 만에 "HPC 가속기"에서 "AI 공장의 핵심 부품"으로 변했다. 각 세대에서 등장한 개념 — CUDA, HBM, NVLink, Tensor Core, MIG, Transformer Engine, 멀티다이, FP4 — 은 그냥 마케팅 용어가 아니라, 각각이 실제 병목을 해결하기 위해 나온 기술이다. 이 맥락을 알면 GPU 스펙시트가 읽히고, AI 팀의 요구사항이 이해되고, 인프라를 어떻게 준비해야 하는지가 보인다.
이 글이 어떠셨나요?
관련 포스트
서버가 켜지는 동안 무슨 일이 벌어지는가 — 시스템 엔지니어를 위한 OS 부팅 과정
전원 버튼을 누르고 SSH가 될 때까지 2분. 그 사이에 HW와 SW가 어떻게 제어권을 주고받는지, BMC부터 systemd까지 각 단계가 왜 존재하고 무슨 일을 하는지를 정리한 글.
2026. 04. 03. 오후 10:00Infrastructure키보드를 치면 리눅스에서는 어떤 일이 벌어질까?
키보드를 치면 리눅스에서는 어떤 일이 벌어질까? 라는 궁금증에 시작한 리눅스가 입력을 처리한 방법에 대해서 알려준다.
2026. 02. 01. 오전 12:00Infrastructure1. 스토리지, 왜 어렵고 왜 중요한가
서버는 죽어도 살리면 되지만 스토리지는 잃으면 끝이다. 10년차 시스템 엔지니어가 스토리지가 어렵고 중요한 이유, 스토리지 담당자의 실제 업무, 기술의 진화 흐름을 현장 경험 기반으로 풀어본다.
2026. 03. 30. 오후 10:00뉴스레터 구독
새 글이 올라오면 이메일로 알려드려요.