DeepSeek telah memperkenalkan Janus Pro, sebuah model AI multimodal baru yang memicu diskusi signifikan di komunitas teknologi karena pendekatannya yang efisien dalam pemahaman dan generasi gambar AI. Dinamai dari dewa Romawi dengan dua wajah - mewakili kemampuan gandanya dalam memahami dan menghasilkan konten visual - model parameter 7B ini menandai tonggak sejarah baru dalam kemajuan pesat DeepSeek di bidang AI.
Arsitektur yang Efisien
Model ini menunjukkan efisiensi yang luar biasa dalam arsitekturnya, membutuhkan sumber daya komputasi yang jauh lebih sedikit dibandingkan pesaingnya. Pelatihan diselesaikan hanya dalam 7-14 hari menggunakan kluster 16-32 node, masing-masing dilengkapi dengan 8 GPU NVIDIA A100. Ini berarti biaya pelatihan diperkirakan sekitar seratus sepuluh ribu dolar Amerika - jauh lebih kecil dibandingkan biaya pelatihan model sebelumnya seperti DALL-E 2 yang mencapai satu juta dolar Amerika.
Spesifikasi Teknis:
- Ukuran Model: 7B parameter
- Infrastruktur Pelatihan: 16-32 node dengan masing-masing 8 GPU NVIDIA A100 (40GB)
- Durasi Pelatihan: 7-14 hari
- Resolusi Gambar: 384x384
- Perkiraan Biaya Pelatihan: ~USD 110.000
Fitur Utama:
- Kemampuan multimodal (text-to-image dan pemahaman gambar)
- Diizinkan untuk penggunaan komersial
- Dibatasi untuk penggunaan militer
- Memungkinkan untuk penerapan lokal
Keterbatasan dan Kemampuan Teknis
Meskipun Janus Pro menunjukkan potensi yang menjanjikan dalam berbagai pengujian, model ini memiliki beberapa keterbatasan penting. Saat ini, model dibatasi untuk menghasilkan gambar dengan resolusi 384x384, jauh lebih rendah dibandingkan resolusi 1024x1024 yang ditawarkan beberapa pesaing. Namun, diskusi komunitas menunjukkan bahwa keterbatasan ini mungkin disengaja, dengan fokus pada pemahaman prompt dan kualitas generasi daripada resolusi mentah, yang dapat diatasi melalui upscaling.
Masih belum ada mekanisme dalam GenAI yang menerapkan batasan deduktif (dan komposisionalitas), yaitu situasi di mana ketika satu output diperoleh, ruang pencarian untuk output masa depan harus dibatasi (dan di mana batasan tersebut tersusun).
Dampak Pasar
Pengumuman ini telah menimbulkan gema yang signifikan di pasar teknologi, berkontribusi pada pergerakan saham yang mencolok di antara perusahaan-perusahaan yang berfokus pada AI. Keuntungan efisiensi model ini telah secara khusus mempengaruhi persepsi pasar tentang kebutuhan perangkat keras untuk pengembangan AI, menantang asumsi tentang skala infrastruktur yang diperlukan untuk kemampuan AI yang kompetitif.
Lisensi dan Aksesibilitas
DeepSeek telah merilis Janus Pro di bawah lisensi mereka sendiri, yang memungkinkan penggunaan komersial sambil membatasi aplikasi militer. Pendekatan yang relatif terbuka ini, dikombinasikan dengan arsitektur yang efisien, berpotensi menurunkan hambatan masuk bagi organisasi yang ingin menerapkan kemampuan pencitraan AI tingkat lanjut.
Pengembangan Janus Pro merepresentasikan langkah signifikan dalam demokratisasi teknologi generasi gambar AI, meskipun masih ada pertanyaan tentang kinerjanya di dunia nyata dibandingkan dengan solusi yang sudah mapan. Seiring evolusi teknologi, fokus pada efisiensi dan aksesibilitas dapat membentuk kembali cara kita mendekati pengembangan dan penerapan model AI.
Referensi: Laporan Teknis Janus Pro