
Tensor Processing Unit vs Graphics Processing Unit

구글 TPU(Tensor Processing Unit)와 엔비디아 GPU(Graphics Processing Unit) 정리·비교
한줄 요약
TPU:
대규모 딥러닝(특히 대형 행렬곱·Transformer 계열)에 특화된 매우 높은 처리량·전력효율·스케일을 제공하는 가속기구글 설계, 주로 클라우드 중심 제공.
요약:
GPU:
범용 연산 능력과 넓은 소프트웨어 생태계(CUDA, PyTorch 등)를 갖춘 더 유연한 가속기 — 연구·생산·추론·그래픽스 등 다양한 워크로드에 적합. 최신 데이터센터 GPU는 텐서 코어로 ML 성능도 강력.
1) 아키텍처 핵심 차이
TPU:대규모 systolic array(행렬곱에 특화된 다수의 MAC 유닛 연결) 기반.
행렬 곱(MM, GEMM)과 누적 연산을 매우 효율적으로 수행하도록 하드웨어가 설계되어 있음.
행렬 곱(MM, GEMM)과 누적 연산을 매우 효율적으로 수행하도록 하드웨어가 설계되어 있음.
(온칩 메모리 배치와 HBM 대역폭도 ML에 최적화).
GPU:
GPU:
수천 개의 스칼라 코어 + 텐서 코어(행렬 연산 가속)로 구성.
GPU는 스레드 병렬성과 높은 유연성(브랜치·비정형 연산 처리)에 강점.
※ NVIDIA는 텐서 코어·FP8 등 새 정밀도 지원으로 대형 모델 학습/추론 가속.
2) 연산 성능·정밀도(예시)
TPU v4:약 275 TFLOPS (BF16/INT8 기준), HBM 대역폭 · 전력 효율이 ML 워크로드에 최적화.
TPU 제품군은 세대별로 성능·대역폭이 크게 향상.
NVIDIA H100:
NVIDIA H100:
4세대 텐서 코어, FP8/TF32/FP16 등 다양한 정밀도에서 매우 높은 TFLOPS 제공(예: FP8에서 대폭 향상).
실무에서 대형 언어모델 학습에 널리 사용됨.
요약:
원시 TFLOPS 수치만으로 우열을 단정하기 어렵고, 모델 구조·정밀도·메모리 제약·통신(클러스터) 환경이 실제 성능을 결정.
관련 벤치마크(MLPerf 등)와 실케이스가 중요.
3) 메모리·대역폭·스케일링
TPU:HBM 채용, 높은 메모리 대역폭과 TPU Pod(수백~수천 칩을 묶는 스케일 아키텍처)로 대형 모델 학습에 최적화.
구글은 TPU Pod/Hypercomputer 형태로 대규모 학습 인프라 제공.
GPU:
GPU:
NVLink/PCIe/NVIDIA MGX 등 인터커넥트로 노드 간 통신.
GPU는 클러스터링 툴( NCCL, Megatron-LM, DeepSpeed 등)과 결합해 대규모 분산 학습에 널리 쓰임.
확장성은 네트워크와 스택(소프트웨어)에 좌우.
4) 소프트웨어·개발생태계
TPU:TensorFlow와의 높은 통합성(XLA를 통한 최적화)이 강점.
PyTorch도 torch_xla 같은 레이어로 지원하지만, GPU 쪽 생태계(특히 CUDA 기반 툴체인)에 비해 약간 좁을 수 있음.
구글 클라우드 콘솔/Vertex AI와 연동해 사용하기 편함.
GPU:
GPU:
CUDA 생태계는 여전히 업계 표준.
PyTorch·TensorFlow·JAX·Triton·cuDNN 등 다양한 툴, 커뮤니티 지원과 연구 코드의 대다수는 GPU 우선 최적화.
사용자 정의 커널·연산 개발이 용이.
5) 전력 효율·비용(클라우드/온프레미스 차이)
TPU:동일 작업에서 전력 대비 성능(Perf/W) 측면에서 유리한 사례가 보고됨 — 특히 대규모 변환기(Transformer) 학습에서 효율적이라고 구글이 주장.
다만 TPU는 역사적으로 구글 클라우드 중심(판매·임대형) 제공이 많았고, 최근 제휴·판매 확대 소식이 있음(시장 변화 중).
GPU:
GPU:
초기 투자(서버·수급·전력)는 크지만, 하드웨어·서드파티 공급망과 대체 옵션(여러 클라우드, 온프레미스 구매)이 풍부해 비용 모델이 다양함.
최신 H100 등은 높은 성능이지만 전력·가격이 큼.
대형 트랜스포머 모델을 최대한 빠르고 전력효율 좋게 학습시키고 싶을 때
6) 사용 사례 추천(어떤 경우에 무엇을 선택할까)
TPU를 추천할 때대형 트랜스포머 모델을 최대한 빠르고 전력효율 좋게 학습시키고 싶을 때
특히 구글 클라우드에서 작업.
TensorFlow 기반 워크플로우이고, 구글의 TPU Pod/Hypercomputer를 이용한 대규모 학습이 목표일 때.
GPU를 추천할 때
연구·프로토타이핑 단계에서 다양한 커스텀 연산과 디버깅이 필요하거나, PyTorch/CUDA 기반 생태계 의존도가 높을 때.
그래픽스 + ML 혼합 워크로드, 또는 온프레미스 GPU 클러스터를 직접 구성/운영하려는 경우.
TensorFlow 기반 워크플로우이고, 구글의 TPU Pod/Hypercomputer를 이용한 대규모 학습이 목표일 때.
GPU를 추천할 때
연구·프로토타이핑 단계에서 다양한 커스텀 연산과 디버깅이 필요하거나, PyTorch/CUDA 기반 생태계 의존도가 높을 때.
그래픽스 + ML 혼합 워크로드, 또는 온프레미스 GPU 클러스터를 직접 구성/운영하려는 경우.
또한 다양한 클라우드·서버 공급자가 있어 수급·비용 조정이 유리.
7) 향후 동향
구글은 TPU 세대를 계속 업데이트(예: v5/v6e/Trillium/최신 Ironwood 등)하며 클라우드 중심에서 더 넓은 고객층으로 확장하려는 움직임이 있음.반면 NVIDIA는 텐서 코어·FP8 등 새로운 정밀도·하드웨어 기능으로 ML 워크로드에 계속 대응 중.
선택은 (1) 사용하려는 프레임워크, (2) 예산·수급, (3) 배포(클라우드 vs 온프레미스), (4) 목표 모델 크기에 따라 달라질 수 있다.
![]() |
| 비교표 |
Tags:
용어사전
