VGGT Transformer Menciptakan Rekonstruksi 3D dari Gambar dalam Hitungan Detik, Dapat Menggantikan COLMAP dalam Banyak Alur Kerja

BigGo Editorial Team
VGGT Transformer Menciptakan Rekonstruksi 3D dari Gambar dalam Hitungan Detik, Dapat Menggantikan COLMAP dalam Banyak Alur Kerja

Perangkat Visual Geometry Grounded Transformer (VGGT) yang baru dirilis oleh Facebook Research menimbulkan kegembiraan besar di komunitas rekonstruksi 3D karena kemampuannya untuk dengan cepat menciptakan adegan 3D dari foto biasa. Tidak seperti metode fotogrametri tradisional yang membutuhkan waktu pemrosesan yang lama, VGGT dapat menghasilkan rekonstruksi 3D detail dari hanya beberapa gambar dalam hitungan detik.

Tangkapan layar repositori GitHub untuk Visual Geometry Grounded Transformer (VGGT) oleh Facebook Research, menampilkan sifat open-source nya
Tangkapan layar repositori GitHub untuk Visual Geometry Grounded Transformer (VGGT) oleh Facebook Research, menampilkan sifat open-source nya

Pendekatan Berbasis Transformer untuk Rekonstruksi 3D

VGGT mewakili perubahan signifikan dari alur kerja rekonstruksi 3D konvensional. Alih-alih mengandalkan tahapan terpisah untuk estimasi posisi kamera, perhitungan kedalaman, dan pembuatan point cloud, VGGT menangani semuanya dalam satu proses melalui arsitektur transformernya. Anggota komunitas mencatat bahwa ini berpotensi menggantikan COLMAP, alat standar industri yang, meskipun akurat, terkenal lambat dan membutuhkan banyak gambar berkualitas tinggi.

Saya menduga ini akan masuk ke dalam banyak alur kerja di mana akan menggantikan sejumlah pipeline yang dirangkai seadanya.

Model ini mencapai hal tersebut dengan menggunakan arsitektur transformer standar dengan mekanisme perhatian frame-wise dan global yang bergantian, dilatih pada dataset besar gambar beranotasi 3D. Yang sangat mengesankan adalah bahwa VGGT tidak memasukkan bias induktif 3D khusus dalam desainnya, melainkan mempelajari hubungan ini murni dari data.

Fitur Utama VGGT

  • Secara langsung menyimpulkan parameter kamera, peta kedalaman, peta titik, dan jejak titik 3D
  • Dapat bekerja dengan minimal 1 gambar atau hingga ratusan gambar
  • Waktu pemrosesan berkisar dari milidetik hingga beberapa detik
  • Tidak memerlukan arsitektur jaringan 3D khusus
  • Dilatih pada kumpulan data yang beragam termasuk Co3Dv2, BlendMVS, MegaDepth, dan data sintetis
  • Ukuran model: 1 miliar parameter (dengan versi yang lebih kecil direncanakan)
  • Biaya pelatihan: 64 GPU A100 selama sembilan hari (~$18.000 USD)

Aplikasi Praktis yang Muncul dari Diskusi Komunitas

Diskusi komunitas mengungkapkan banyak aplikasi praktis untuk VGGT. Visualisasi arsitektur menonjol sebagai kasus penggunaan utama, di mana rekonstruksi 3D cepat dapat secara dramatis menyederhanakan proses desain renovasi rumah. Aplikasi medis juga menjanjikan, dengan satu komentator menjelaskan pekerjaan pada sistem bedah ortopedi yang melacak alat bedah dalam ruang menggunakan perangkat keras terjangkau seperti iPhone.

Mungkin yang paling menarik adalah potensi integrasi VGGT dengan Gaussian Splatting, teknik rendering mutakhir. Beberapa komentator mencatat bahwa VGGT dapat menyediakan struktur adegan awal untuk alur kerja Gaussian Splatting, berpotensi menghilangkan kebutuhan pemrosesan COLMAP yang lambat. Makalah itu sendiri menyebutkan eksperimen fine-tuning untuk sintesis tampilan baru, menunjukkan bahwa jalur integrasi ini sudah mulai dijelajahi.

Keterbatasan dan Biaya Pelatihan

Meskipun menunjukkan hasil yang mengesankan, anggota komunitas mengungkapkan beberapa skeptisisme tentang kinerja VGGT pada adegan baru versus landmark terkenal yang mungkin telah muncul dalam data pelatihan. Contoh piramida Mesir dan Colosseum Roma yang ditampilkan dalam demonstrasi menimbulkan pertanyaan tentang seberapa baik model ini dapat digeneralisasi ke lingkungan yang benar-benar belum pernah dilihat.

Sumber daya komputasi yang diperlukan untuk melatih VGGT sangat besar. Menurut makalah tersebut, model final dengan satu miliar parameter dilatih pada 64 GPU NVIDIA A100 selama sembilan hari, yang akan menghabiskan biaya sekitar 18.000 dolar AS pada platform cloud komersial. Ini merepresentasikan apa yang disebut beberapa komentator sebagai The Bitter Lesson dari AI modern - bahwa penskalaan komputasi dan data seringkali mengalahkan desain algoritma yang cerdas.

Tolok Ukur Kinerja VGGT

Frame Input 1 2 4 8 10 20 50 100 200
Waktu (detik) 0,04 0,05 0,07 0,11 0,14 0,31 1,04 3,12 8,75
Memori (GB) 1,88 2,07 2,45 3,23 3,63 5,58 11,41 21,15 40,63

Diuji pada satu GPU NVIDIA H100 menggunakan Flash Attention 3

Masa Depan Rekonstruksi 3D

Peluncuran VGGT menandai tonggak penting dalam membuat rekonstruksi 3D lebih mudah diakses. Sementara alat fotogrametri profesional masih menawarkan keunggulan dalam akurasi, kecepatan dan kemudahan penggunaan VGGT membuka kemungkinan baru untuk aplikasi di mana hasil cepat lebih berharga daripada presisi sempurna.

Seorang komentator menyarankan bahwa pendekatan ideal mungkin menggabungkan VGGT dengan fotogrametri tradisional daripada menggantikannya sepenuhnya - menggunakan AI untuk mengisi kesenjangan dalam pemindaian dan meningkatkan hasil. Pendekatan hibrida ini bisa sangat berharga untuk pemindai 3D berbasis ponsel di mana menangkap data sempurna adalah tantangan.

Seiring eksperimen fine-tuning dimulai pada perangkat keras konsumen, kita dapat mengharapkan inovasi cepat di bidang ini dalam beberapa bulan mendatang, berpotensi mengubah alur kerja di berbagai industri dari game dan VR hingga arsitektur dan pencitraan medis.

Referensi: VGGT: Visual Geometry Grounded Transformer