NVIDIA GPU Roadmap 2025-2028: Blackwell, Rubin & Feynman

Pada acara GPU Technology Conference (GTC) 2025, NVIDIA mengumumkan NVIDIA GPU Roadmap 2025-2028 yang mencakup arsitektur Blackwell, Vera Rubin, Rubin Ultra, dan Feynman. Roadmap ini menunjukkan komitmen NVIDIA dalam menghadirkan inovasi AI computing dan high-performance computing (HPC) hingga 2028. Dalam keynote tersebut, Huang mengumumkan arsitektur Blackwell Ultra GB300 yang akan dirilis pada 2025, serta arsitektur Vera Rubin dan Rubin Ultra yang dijadwalkan meluncur pada 2026 dan 2027. Selain itu, ia juga mengonfirmasi keberadaan Feynman, GPU generasi berikutnya yang direncanakan untuk 2028. Pengumuman ini menegaskan komitmen NVIDIA dalam menghadirkan inovasi di bidang AI computing dan high-performance computing (HPC).

Contents

Blackwell Ultra GB300 (2025): Generasi AI GPU yang Lebih Kuat dan Efisien
Vera Rubin (2026): Peningkatan Kapasitas dan Bandwidth AI Computing
Rubin Ultra (2027): Super AI Computing dengan HBM4e
Feynman (2028): Masa Depan AI Computing
Kesimpulan
Glosarium

Setiap generasi GPU dalam roadmap ini membawa peningkatan besar dalam jumlah die GPU, kapasitas memori HBM, efisiensi daya, serta teknologi interkoneksi seperti NVLink 7 dan 8. Dengan inovasi ini, NVIDIA bertujuan untuk menghadirkan komputasi AI yang lebih kuat dan hemat energi, memungkinkan pengembangan model AI yang lebih kompleks dengan skala lebih besar.

Blackwell Ultra GB300 (2025): Generasi AI GPU yang Lebih Kuat dan Efisien

Sebagai penerus arsitektur Hopper, Blackwell Ultra GB300 akan menjadi GPU pertama dalam roadmap baru ini yang siap digunakan di pusat data AI. Dengan peningkatan signifikan dalam arsitektur dan performa, Blackwell Ultra GB300 dirancang untuk menangani AI training dan inferensi dalam skala besar, seperti model AI generasi terbaru yang memiliki miliaran hingga triliunan parameter.

Blackwell Ultra GB300 memiliki arsitektur dual-die, yang berarti terdapat dua chip GPU dalam satu paket, meningkatkan throughput secara signifikan dibanding generasi sebelumnya. Memori yang digunakan adalah HBM3e dengan kapasitas 288GB, yang memberikan bandwidth lebih dari 8TB/s, memastikan pengolahan data yang lebih cepat dalam skenario komputasi berat. Untuk meningkatkan efisiensi komunikasi antar-GPU, NVIDIA mengadopsi NVLink 7, yang menawarkan latensi lebih rendah dan kecepatan transfer data lebih tinggi dibandingkan generasi sebelumnya.

Daya yang dikonsumsi oleh Blackwell Ultra GB300 diperkirakan mencapai 1200W per unit, menjadikannya salah satu GPU paling bertenaga yang pernah dibuat NVIDIA. Dengan sistem rak NVL72, GPU ini memungkinkan hingga 72 unit GPU dalam satu sistem, memberikan kepadatan komputasi yang luar biasa untuk pusat data AI generasi mendatang.

Vera Rubin (2026): Peningkatan Kapasitas dan Bandwidth AI Computing

Setahun setelah Blackwell Ultra GB300, NVIDIA akan memperkenalkan Vera Rubin, yang menghadirkan peningkatan lebih lanjut dalam bandwidth memori dan efisiensi daya. GPU ini dirancang untuk menangani inferensi AI dan workload real-time yang membutuhkan kecepatan tinggi serta konsumsi daya yang lebih efisien.

Vera Rubin menggunakan memori HBM4 dengan kapasitas 288GB, yang merupakan peningkatan dari HBM3e yang digunakan dalam Blackwell Ultra GB300. HBM4 menawarkan bandwidth yang lebih tinggi dan latensi yang lebih rendah, memungkinkan komputasi AI yang lebih cepat dan efisien. Selain itu, arsitektur NVLink 7 tetap digunakan untuk memastikan komunikasi antar-GPU tetap optimal.

GPU ini dirancang untuk bekerja dalam sistem rak NVL144, yang mendukung hingga 144 unit GPU dalam satu sistem, menggandakan skala yang tersedia dibanding Blackwell Ultra GB300. Dengan kapasitas ini, Vera Rubin akan menjadi pilihan utama untuk pusat data yang menjalankan model AI generasi terbaru, seperti multimodal AI yang mampu menggabungkan teks, gambar, dan suara secara bersamaan.

Rubin Ultra (2027): Super AI Computing dengan HBM4e

Pada 2027, NVIDIA akan meluncurkan Rubin Ultra, yang akan menjadi versi lebih kuat dari Vera Rubin dengan peningkatan dalam jumlah GPU die, kapasitas memori, dan efisiensi daya. GPU ini diposisikan untuk menangani AI training dan inferensi dalam skala hiper, termasuk untuk aplikasi yang membutuhkan komputasi berkecepatan tinggi dengan volume data yang sangat besar.

Rubin Ultra akan menggunakan memori HBM4e, yang menawarkan kecepatan dan bandwidth lebih tinggi dibandingkan HBM4. Dengan kapasitas memori yang lebih besar, GPU ini dapat menangani workload AI yang jauh lebih kompleks, termasuk model dengan triliunan parameter. Selain itu, NVIDIA telah mengonfirmasi penggunaan NVLink 8, yang menghadirkan kecepatan transfer data lebih tinggi dibandingkan NVLink 7, memungkinkan komunikasi antar-GPU yang lebih efisien.

Karena peningkatan jumlah GPU die dan kapasitas memori yang lebih besar, Rubin Ultra kemungkinan akan menggunakan sistem pendinginan berbasis liquid cooling untuk menjaga suhu tetap stabil saat menangani workload berat. Dengan sistem rak NVL576, GPU ini dapat mengakomodasi hingga 576 GPU dalam satu sistem, menjadikannya solusi AI paling canggih untuk pusat data generasi mendatang.

Feynman (2028): Masa Depan AI Computing

NVIDIA telah mengonfirmasi bahwa generasi berikutnya setelah Rubin Ultra akan diberi nama Feynman, yang dijadwalkan rilis pada tahun 2028. Meskipun detail spesifik masih belum diungkapkan sepenuhnya, NVIDIA memastikan bahwa Feynman akan membawa peningkatan besar dalam kapasitas memori dan efisiensi daya dibandingkan Rubin Ultra.

Feynman kemungkinan akan menggunakan HBM generasi terbaru, yang dapat mencakup HBM5 atau teknologi memori lainnya yang lebih cepat dan hemat daya. Selain itu, NVIDIA diperkirakan akan mengadopsi NVLink generasi berikutnya, yang akan meningkatkan kecepatan komunikasi antar-GPU dan memungkinkan pengolahan data dalam skala yang lebih besar.

Dengan arsitektur ini, Feynman diposisikan sebagai solusi utama untuk komputasi AI generasi mendatang, termasuk model AI multimodal, real-time AI, dan inferensi dalam skala yang lebih besar dari sebelumnya.

Kesimpulan

NVIDIA semakin memperkuat posisinya dalam dunia AI computing dengan roadmap GPU hingga 2028. Dengan kehadiran Blackwell Ultra GB300, Vera Rubin, Rubin Ultra, dan Feynman, setiap generasi menghadirkan inovasi besar dalam kapasitas memori, interkoneksi, dan efisiensi daya.

Berikut adalah ringkasan utama roadmap ini:

Blackwell Ultra GB300 (2025) menggunakan HBM3e 288GB, dual-die GPU, dan NVLink 7, dengan sistem NVL72 yang memungkinkan hingga 72 GPU dalam satu sistem.
Vera Rubin (2026) menggunakan HBM4 dan NVLink 7, dengan sistem NVL144 yang memungkinkan 144 GPU dalam satu sistem.
Rubin Ultra (2027) Menggunakan HBM4e dan NVLink 8, dengan skala yang lebih besar dalam sistem NVL576, yang memungkinkan hingga 576 GPU dalam satu sistem.
Feynman (2028) belum ada spesifikasi detail, tetapi NVIDIA telah mengonfirmasi bahwa ini akan menjadi generasi berikutnya dari arsitektur GPU mereka.

Dengan roadmap ini, NVIDIA menunjukkan komitmennya untuk terus memimpin dalam pengembangan AI supercomputing, pusat data, dan teknologi akselerasi komputasi hingga dekade berikutnya.

Glosarium

AI (Artificial Intelligence / Kecerdasan Buatan)
Teknologi yang memungkinkan komputer untuk melakukan tugas yang biasanya membutuhkan kecerdasan manusia, seperti mengenali gambar, memahami bahasa, dan membuat keputusan.
Architecture (Arsitektur GPU)
Desain dasar dari GPU yang menentukan bagaimana komponen di dalamnya bekerja sama untuk melakukan komputasi. Contoh: Hopper, Blackwell, Vera Rubin, Rubin Ultra, Feynman adalah nama arsitektur GPU dari NVIDIA.
Bandwidth
Kecepatan maksimum data yang dapat dipindahkan dari satu titik ke titik lain dalam satu detik. Dalam GPU, bandwidth biasanya mengacu pada kecepatan transfer data antara memori HBM dan prosesor GPU.
Blackwell (Arsitektur Blackwell Ultra GB300)
Nama kode untuk generasi GPU NVIDIA yang akan dirilis pada 2025, menggantikan arsitektur Hopper H100. GPU ini membawa peningkatan performa yang signifikan untuk AI training dan inferensi.
Compute Power (Daya Komputasi)
Kapasitas sebuah prosesor (CPU atau GPU) dalam melakukan perhitungan matematis per detik. Biasanya diukur dalam FLOPS (Floating Point Operations per Second).
Die (Unit Chip dalam GPU)
Bagian dari prosesor yang mengandung sirkuit elektronik. Dalam konteks GPU, multi-die berarti ada lebih dari satu chip dalam satu GPU untuk meningkatkan performa.
Dual-Die Architecture
Arsitektur GPU yang menggunakan dua chip GPU dalam satu paket, seperti pada Blackwell Ultra GB300, yang meningkatkan kecepatan pemrosesan dan efisiensi daya.
Feynman (Arsitektur Feynman 2028)
Nama kode untuk arsitektur GPU NVIDIA yang akan datang pada tahun 2028. Diperkirakan akan memiliki peningkatan besar dalam kecepatan, kapasitas memori, dan efisiensi daya dibandingkan generasi sebelumnya.
FLOPS (Floating Point Operations Per Second)
Satuan ukuran performa komputasi yang menunjukkan berapa banyak operasi matematika yang dapat dilakukan oleh prosesor dalam satu detik. PetaFLOPS berarti 1.000 triliun operasi per detik.
GPU (Graphics Processing Unit)
Prosesor yang dirancang khusus untuk menangani tugas komputasi berat seperti grafik 3D dan kecerdasan buatan. GPU lebih cepat dibandingkan CPU dalam menangani pemrosesan data dalam jumlah besar secara paralel.
HBM (High Bandwidth Memory)
Jenis memori berkecepatan tinggi yang digunakan dalam GPU untuk memproses data lebih cepat dibandingkan memori tradisional seperti GDDR.
1. Hopper (Arsitektur Hopper H100)
  Arsitektur GPU NVIDIA yang dirilis pada 2022, menjadi pendahulu Blackwell.
Inferensi AI
Proses menjalankan model AI yang telah dilatih untuk memberikan hasil atau prediksi berdasarkan data input yang diberikan.
Interconnect (Teknologi Penghubung GPU)
Teknologi yang memungkinkan GPU untuk berkomunikasi satu sama lain dengan kecepatan tinggi. Dalam GPU NVIDIA, digunakan teknologi NVLink.
Liquid Cooling (Pendinginan Cairan)
Teknologi pendinginan yang menggunakan cairan untuk menyerap panas dari GPU, memungkinkan performa lebih tinggi dengan konsumsi daya yang lebih efisien.
Memory Capacity (Kapasitas Memori)
Ukuran memori yang tersedia dalam GPU untuk menyimpan dan memproses data. Semakin besar kapasitas memori, semakin banyak data yang dapat diproses dalam waktu bersamaan.
Multi-Die GPU
GPU yang memiliki lebih dari satu chip (die) dalam satu paket untuk meningkatkan kinerja dan efisiensi daya.
NVLink
Teknologi interkoneksi buatan NVIDIA yang memungkinkan komunikasi berkecepatan tinggi antar-GPU dalam sistem komputasi AI.
NVL (NVIDIA Link System)
Sistem konfigurasi GPU dalam sebuah rak server, yang menentukan jumlah GPU yang dapat dipasang dalam satu sistem.
PetaFLOPS
Satuan pengukuran performa GPU, berarti 1.000 triliun operasi per detik.
Rubin Ultra (Arsitektur Rubin Ultra 2027)
Generasi GPU NVIDIA yang akan digunakan dalam supercomputing AI, dengan teknologi HBM4e dan NVLink 8.
Scalability (Skalabilitas)
Kemampuan suatu sistem untuk diperbesar atau diperkecil sesuai dengan kebutuhan pemrosesan data.
Silicon Photonics Switch
Teknologi jaringan terbaru yang menggunakan cahaya (optik) untuk mempercepat transfer data antar GPU dan mengurangi konsumsi daya.
Supercomputing
Komputasi dalam skala besar yang menggunakan ribuan hingga jutaan prosesor (GPU) untuk menangani tugas komputasi berat.
Training AI
Proses melatih model AI dengan dataset yang sangat besar agar dapat mengenali pola dan membuat keputusan yang lebih akurat.
Throughput
Jumlah data yang dapat diproses oleh GPU dalam periode waktu tertentu, semakin tinggi throughput, semakin cepat GPU dapat menangani tugas AI.
Vera Rubin (Arsitektur Vera Rubin 2026)
Arsitektur GPU NVIDIA yang menggantikan Blackwell, dirancang untuk meningkatkan kecepatan inferensi AI dengan penggunaan memori HBM4.