Microsoft telah mengambil langkah berani dalam dunia gaming berbasis AI dengan model eksperimental terbarunya yang mengubah cara game klasik mungkin dirender di masa depan. Raksasa teknologi ini mendemonstrasikan potensi dan keterbatasan saat ini dari AI generatif dalam hiburan interaktif.
WHAMM: Model AI Gaming Terbaru Microsoft
Microsoft baru-baru ini memperkenalkan WHAMM (World and Human Action MaskGIT Model), sebuah sistem AI generatif yang dirancang khusus untuk aplikasi gaming real-time. Model baru ini merepresentasikan kemajuan signifikan dibandingkan pendahulunya, WHAM-1.6B, yang dirilis pada Februari. Demonstrasi paling mengesankan dari kemampuan WHAMM hadir dalam bentuk versi yang dapat dimainkan dari game klasik berusia 28 tahun, Quake II, yang dapat dialami pengguna langsung di browser web mereka melalui Copilot Labs. Meskipun teknologi ini masih dalam tahap eksperimental, ini menunjukkan bagaimana AI mungkin pada akhirnya mengubah pengalaman bermain game dengan menghasilkan konten visual secara real-time berdasarkan interaksi pemain.
![]() |
---|
Antarmuka AI WHAMM untuk pembuatan game secara real-time di Quake II |
Inovasi Teknis di Balik WHAMM
Inovasi teknis utama dalam WHAMM terletak pada keberangkatannya dari model autoregresif tradisional, yang menghasilkan token secara berurutan. Sebagai gantinya, WHAMM menggunakan arsitektur gaya MaskGIT yang dapat menghasilkan semua token gambar untuk satu frame secara paralel. Perubahan arsitektur ini secara signifikan mengurangi jumlah forward pass yang diperlukan dan mengurangi ketergantungan antar elemen, memungkinkan output visual yang lebih cepat yang mendekati responsivitas real-time. Resolusi juga telah ditingkatkan dari 300 x 180 piksel model sebelumnya menjadi 640 x 360 piksel yang lebih detail, memberikan visual yang lebih jelas sambil mempertahankan arsitektur encoder-decoder yang sama.
![]() |
---|
Arsitektur teknis model WHAM yang menampilkan desain inovatifnya |
Proses Pelatihan yang Dipercepat
Mungkin yang paling luar biasa adalah pengurangan dramatis dalam waktu pelatihan yang diperlukan untuk WHAMM. Sementara model WHAM-1.6B sebelumnya membutuhkan tujuh tahun data gameplay untuk pelatihan, pengembang mengajari WHAMM menggunakan hanya lebih dari seminggu gameplay Quake II yang dikurasi. Efisiensi ini dicapai dengan memanfaatkan data dari penguji game profesional yang fokus secara eksklusif pada satu level permainan. Ini merepresentasikan kemajuan signifikan dalam efisiensi pelatihan model AI, yang berpotensi membuat sistem serupa lebih praktis untuk dikembangkan di masa depan.
Keterbatasan Saat Ini dan Pengalaman Pengguna
Meskipun kemajuan ini, WHAMM tetap berada dalam tahap eksperimental. Demo berjalan pada frame rate yang sangat rendah, hampir mencapai belasan rendah hingga menengah, dan menderita lag input yang terlihat jelas. Microsoft menekankan bahwa demo ini harus dilihat sebagai showcase teknologi daripada produk gaming yang sudah jadi. Pemain dapat melakukan tindakan dasar seperti menembak, melompat, berjongkok, dan berinteraksi dengan musuh, tetapi pengalaman terhambat oleh berbagai keterbatasan. Interaksi musuh tampak kabur, pelacakan kesehatan dan statistik kerusakan sering kali tidak akurat, dan model memiliki panjang konteks terbatas—melupakan objek yang meninggalkan pandangan pemain lebih dari sembilan persepuluh detik. Selain itu, demo terbatas pada satu level, karena upaya untuk maju lebih jauh membekukan generasi gambar karena kurangnya data pelatihan yang direkam.
Spesifikasi Teknis WHAMM:
- Resolusi: 640 x 360 piksel (meningkat dari 300 x 180 pada model sebelumnya)
- Arsitektur: Generasi token paralel bergaya MaskGIT
- Data pelatihan: Satu minggu gameplay terkurasi dari Quake II (berkurang dari tujuh tahun untuk model sebelumnya)
- Keterbatasan saat ini: Frame rate rendah (FPS belasan rendah hingga menengah), lag input tinggi, memori konteks terbatas (0,9 detik), terbatas pada satu level saja
AI dalam Industri Kreatif: Peningkatan vs. Penggantian
WHAMM muncul di tengah diskusi yang lebih luas tentang peran AI dalam industri kreatif. Kontroversi baru-baru ini, seperti kreasi AI terinspirasi Ghibli dari OpenAI, telah menyoroti skeptisisme publik tentang apakah AI benar-benar dapat mereplikasi kesenian manusia. Microsoft memposisikan WHAMM bukan sebagai pengganti kreativitas manusia tetapi sebagai alat untuk meningkatkannya—filosofi yang mirip dengan teknologi ACE dari Nvidia, yang meningkatkan NPC yang realistis dalam game seperti inZOI. Implementasi ideal akan melihat AI meningkatkan daripada menggantikan karya kreatif, menambahkan elemen dinamis sambil mempertahankan sentuhan manusia yang membuat game menarik.
Implikasi Masa Depan untuk Media Interaktif
Ke depannya, Microsoft membayangkan WHAMM dan teknologi serupa memungkinkan bentuk media interaktif yang sepenuhnya baru. Meskipun game yang sepenuhnya dihasilkan oleh AI tetap berada di cakrawala daripada realitas langsung, inovasi seperti WHAMM menunjukkan bahwa mereka bisa muncul dalam beberapa tahun ke depan. Iterasi masa depan kemungkinan akan mengatasi kekurangan saat ini sambil memberdayakan pengembang game untuk membuat narasi yang lebih imersif yang diperkaya oleh alat yang didukung AI. Teknologi ini merepresentasikan sekilas menarik tentang bagaimana AI generatif pada akhirnya dapat mengubah tidak hanya bagaimana tampilan game, tetapi bagaimana mereka secara fundamental berfungsi dan merespons tindakan pemain.