Peluncuran FastVideo, sebuah kerangka kerja baru untuk mempercepat model difusi video, telah memicu perdebatan sengit dalam komunitas teknologi tentang masa depan model generasi video open source versus closed source. Diskusi ini muncul pada saat yang krusial ketika berbagai perusahaan berlomba untuk mengembangkan kemampuan generasi video yang semakin canggih.
Keunggulan Open Source
Sebagian besar komunitas percaya bahwa model video open source pada akhirnya akan mengungguli alternatif closed source seperti Sora dari OpenAI. Argumen utama berpusat pada keunggulan ekosistem yang disediakan open source, termasuk kemampuan untuk memodifikasi, menyesuaikan, dan mengintegrasikan model-model ini ke dalam berbagai aplikasi. Model seperti Hunyuan dan Mochi, yang dapat dijalankan secara lokal atau di lingkungan cloud yang disesuaikan, memberikan pengembang dan kreator lebih banyak fleksibilitas dalam membangun aplikasi inovatif.
Model video open source akan mengalahkan closed source. Ekosistem dan perangkat pendukung sangat penting... Karena Anda dapat memprogram dan menjalankannya secara lokal atau di cloud Anda sendiri. Anda dapat menyesuaikannya untuk melakukan apa pun yang Anda inginkan. Anda dapat membangun model reaktif audio, model yang dapat dikontrol, dinding seni interaktif, dan sebagainya.
Fitur Utama FastVideo:
- Peningkatan kecepatan inferensi 8x dengan FastHunyuan dan FastMochi
- Mendukung teknologi video DiTs terkini yang bersifat terbuka
- Pelatihan yang dapat diskalakan dengan peningkatan hampir linear hingga 64 GPU
- Kemampuan penyesuaian yang hemat memori
Keterbatasan dan Tantangan Teknis
Namun, diskusi ini juga mengungkapkan hambatan teknis yang signifikan yang dihadapi oleh model open source maupun closed source. Keterbatasan perangkat keras saat ini, terutama terkait memori GPU, menjadi kendala utama. Sementara beberapa anggota komunitas mengharapkan kartu grafis dengan kapasitas memori yang lebih besar (seperti varian 192GB yang hipotetis), para ahli menunjukkan bahwa desain berbasis GDDR saat ini membuat konfigurasi seperti itu tidak praktis. Industri tampaknya mencapai batasan fisik dengan arsitektur memori GPU konvensional.
Persyaratan Perangkat Keras untuk FastVideo:
- Minimal: 2 GPU dengan memori 40GB masing-masing (dengan LoRA)
- Persyaratan yang lebih rendah: 2 GPU dengan memori 30GB masing-masing (dengan CPU offload dan LoRA)
- Direkomendasikan: GPU dengan memori 80GB untuk inferensi
Trade-off antara Kualitas dan Aksesibilitas
Komunitas mencatat bahwa model generasi video saat ini menghadapi tantangan dalam pemahaman realitas fisik dan konsistensi di seluruh urutan yang lebih panjang. Meskipun model-model ini unggul dalam membuat klip pendek yang mengesankan secara visual, mereka kesulitan dalam mempertahankan koherensi dalam urutan yang lebih panjang atau secara akurat merepresentasikan interaksi fisik yang kompleks. Perdebatan ini menyoroti bagaimana model yang berbeda membuat trade-off yang berbeda antara kualitas dan aksesibilitas, dengan beberapa fokus pada hasil high-end sementara yang lain memprioritaskan kegunaan praktis.
Sebagai kesimpulan, meskipun teknologi ini menunjukkan potensi yang sangat besar, komunitas menyadari bahwa terobosan signifikan dalam kemampuan perangkat keras dan arsitektur model mungkin diperlukan untuk mencapai tingkat kemampuan generasi video berikutnya. Persaingan berkelanjutan antara pendekatan open source dan closed source terus mendorong inovasi di bidang yang berkembang pesat ini.
Referensi: FastVideo: A Lightweight Framework for Accelerating Large Video Diffusion Models