NVIDIA Perkenalkan Inovasi AI Generatif Visual pada CVPR 2024

NVIDIA, pemimpin global dalam teknologi GPU dan AI, terus mencatat kemajuan pesat dalam bidang AI generatif visual. Para peneliti dari perusahaan ini sedang mengembangkan teknologi baru untuk menciptakan dan menganalisis konten visual seperti gambar, video, dan model 3D.

Dengan memanfaatkan model machine learning dan teknik pemrosesan gambar yang canggih, GenAI mampu menghasilkan data visual baru yang hampir tidak bisa dibedakan dari konten yang diciptakan oleh manusia. Pada konferensi Computer Vision and Pattern Recognition (CVPR) 2024 yang berlangsung di Seattle, WA, dari tanggal 17 hingga 21 Juni, NVIDIA memamerkan lebih dari 50 proyek visual GenAI terbarunya.

CVPR, yang diselenggarakan oleh IEEE (Institute of Electrical and Electronics Engineers), diakui sebagai salah satu acara paling penting dan bergengsi di bidang computer vision dan pattern recognition.

Penelitian AI generatif visual dari NVIDIA mencakup berbagai aplikasi luas, termasuk inovasi khusus untuk industri kesehatan, kendaraan otonom, dan robotika. Dua proyek unggulan NVIDIA, satu berfokus pada dinamika pelatihan model difusi dan satu lagi pada pemetaan definisi tinggi untuk kendaraan otonom, telah terpilih sebagai finalis untuk penghargaan Best Paper Awards di CVPR.

“Artificial intelligence, khususnya generative AI, merupakan lompatan teknologi yang sangat penting,” kata Jan Kautz, vice president learning dan perception research di NVIDIA. “Di CVPR, NVIDIA Research menunjukkan bagaimana kami mendorong batasan kemampuan — mulai dari model generasi gambar yang kuat yang dapat meningkatkan kinerja para profesional hingga perangkat lunak mengemudi otonom yang dapat membantu mengembangkan mobil self-driving generasi berikutnya.”

Setelah meraih kemenangan dalam kategori Prediksi Kepadatan 3D tahun lalu, NVIDIA memenangkan Autonomous Grand Challenge CVPR tahun ini untuk Pengemudian End-to-End, mengalahkan lebih dari 450 peserta dari seluruh dunia. Pencapaian ini menunjukkan inovasi NVIDIA dalam menggunakan AI untuk mengembangkan model kendaraan self-driving otonom. Keberhasilan ini juga membuat NVIDIA meraih CVPR Innovation Award.

Di CVPR, NVIDIA memperkenalkan NVIDIA Omniverse Cloud Sensor RTX, serangkaian microservices yang memungkinkan simulasi sensor yang akurat secara fisik, mempercepat pengembangan mesin otonom dari berbagai jenis.

Salah satu makalah unggulan NVIDIA, JeDI, juga dipresentasikan di acara tersebut. Makalah ini memperkenalkan teknik baru yang memungkinkan pengguna untuk dengan mudah mempersonalisasi output model difusi hanya dalam beberapa detik menggunakan gambar referensi. Peneliti dari Johns Hopkins University, Toyota Technological Institute, dan NVIDIA berkolaborasi dalam pengembangan model ini, yang secara signifikan lebih baik daripada model fine-tuning yang ada. Terobosan ini dapat membantu pengguna menciptakan penggambaran karakter atau visual produk yang spesifik.

Para peneliti NVIDIA juga memperkenalkan FoundationPose, model dasar terpadu untuk estimasi pose dan pelacakan objek. Model ini dapat menggunakan sejumlah kecil gambar referensi atau representasi 3D dari suatu objek untuk memahami bentuknya dan memprediksi pergerakan serta rotasinya dalam 3D tanpa perlu fine-tuning. Temuan ini dapat berperan penting dalam kemajuan robot otonom dan aplikasi augmented reality.

NeRFDeformer, dikembangkan oleh peneliti dari University of Illinois Urbana-Champaign dan NVIDIA, juga dipamerkan di CVPR. NeRFDeformer menggunakan metode baru untuk mengedit adegan 3D yang ditangkap oleh Neural Radiance Field (NeRF) menggunakan satu snapshot 2D, tanpa perlu mendefinisikan ulang transformasi adegan secara manual atau membuat ulang NeRF dari awal. Kemajuan ini berpotensi besar untuk aplikasi yang membutuhkan pemodelan 3D dinamis.

Bekerja sama dengan Massachusetts Institute of Technology (MIT), NVIDIA juga memperkenalkan VILA, model bahasa visual (VLM) mutakhir yang dapat memahami dan memproses gambar serta teks. VILA secara signifikan meningkatkan kemampuan VLM yang ada dengan mengatasi beberapa keterbatasan seperti kecepatan inferensi yang lambat, kurangnya pembelajaran dalam konteks, dan penggunaan gambar tunggal.

Sebanyak lebih dari selusin makalah yang dipresentasikan oleh NVIDIA di CVPR berfokus pada penelitian kendaraan otonom. Beberapa makalah unggulan lainnya yang dipresentasikan oleh NVIDIA di CVPR 2024 termasuk dataset sintetis indoor terbesar yang pernah ada untuk AI City Challenge, yang akan membantu pengembangan solusi kota pintar dan otomatisasi industri.

Kesimpulan

NVIDIA, pemimpin global dalam teknologi GPU dan AI, terus membuat kemajuan pesat dalam AI generatif visual. Dengan memanfaatkan machine learning dan teknik pemrosesan gambar canggih, mereka menghasilkan konten visual yang sulit dibedakan dari buatan manusia. Pada konferensi CVPR 2024 di Seattle, NVIDIA menampilkan lebih dari 50 proyek visual GenAI, termasuk inovasi di bidang kesehatan, kendaraan otonom, dan robotika. Prestasi mereka di CVPR termasuk menjadi finalis Best Paper Awards dan memenangkan Autonomous Grand Challenge, menunjukkan kekuatan inovasi mereka.

Produk baru seperti NVIDIA Omniverse Cloud Sensor RTX, JeDI, FoundationPose, dan NeRFDeformer membawa terobosan dalam simulasi sensor, personalisasi model difusi, estimasi pose objek, dan pemodelan 3D dinamis. Kolaborasi dengan MIT menghasilkan VILA, model bahasa visual yang mengatasi banyak keterbatasan VLM. Lebih dari selusin makalah mereka di CVPR berfokus pada penelitian kendaraan otonom dan solusi kota pintar, termasuk dataset sintetis indoor terbesar untuk AI City Challenge. NVIDIA terus menunjukkan keunggulannya dan memperkuat posisinya sebagai pemimpin global dalam teknologi AI generatif visual.

Glosarium

Artificial Intelligence (AI)
Kecerdasan buatan yang dikembangkan oleh komputer atau mesin untuk meniru kecerdasan manusia dalam tugas-tugas seperti pengenalan suara, pemrosesan gambar, dan pengambilan keputusan.
Autonomous Grand Challenge
Kompetisi tahunan yang diadakan di CVPR untuk menguji dan menilai teknologi kendaraan otonom yang dikembangkan oleh berbagai tim di seluruh dunia.
Computer Vision
Bidang studi dalam kecerdasan buatan yang fokus pada pengenalan, analisis, dan interpretasi gambar dan video digital oleh komputer.
CVPR (Computer Vision and Pattern Recognition)
Konferensi tahunan yang diadakan oleh IEEE, yang merupakan salah satu acara paling penting dan bergengsi di bidang computer vision dan pattern recognition.
Diffusion Model
Model pembelajaran mesin yang digunakan untuk menghasilkan data baru dengan mendistribusikan dan mengolah data yang ada dalam pola tertentu.
FoundationPose
Model dasar terpadu yang digunakan untuk estimasi pose dan pelacakan objek dalam tiga dimensi, menggunakan gambar referensi atau representasi 3D dari objek.
Generative AI (GenAI)
Cabang AI yang fokus pada pembuatan konten baru seperti gambar, teks, dan musik dengan menggunakan model pembelajaran mesin.
IEEE (Institute of Electrical and Electronics Engineers)
Organisasi profesional internasional yang berdedikasi pada kemajuan teknologi di bidang listrik, elektronik, dan pengkomputeran.
JeDI (Joint Embedding Diffusion Inference)
Makalah unggulan NVIDIA yang memperkenalkan teknik baru untuk mempersonalisasi output model difusi dengan cepat menggunakan gambar referensi.
Machine Learning
Sub-bidang AI yang menggunakan algoritma dan statistik untuk memungkinkan komputer mempelajari pola dari data dan membuat prediksi atau keputusan tanpa diprogram secara eksplisit.
NeRF (Neural Radiance Field)
Teknik pemodelan 3D yang menggunakan jaringan saraf untuk merekonstruksi adegan tiga dimensi dari gambar dua dimensi.
NeRFDeformer
Metode inovatif yang digunakan untuk mengedit adegan 3D yang ditangkap oleh NeRF dengan menggunakan snapshot 2D tunggal.
NVIDIA Omniverse Cloud Sensor RTX
Serangkaian microservices yang memungkinkan simulasi sensor yang akurat secara fisik untuk mempercepat pengembangan mesin otonom.
Pattern Recognition
Proses mengenali pola dan struktur dalam data, sering digunakan dalam analisis gambar, suara, dan teks.
VILA (Visual Language Model)
Model bahasa visual mutakhir yang dikembangkan oleh NVIDIA dan MIT untuk memahami dan memproses gambar serta teks, meningkatkan kecepatan inferensi dan pembelajaran dalam konteks.
Visual Generative AI
Teknologi AI yang digunakan untuk menciptakan dan menginterpretasikan konten visual seperti gambar, video, dan model 3D dengan kualitas yang menyerupai hasil karya manusia.