Terobosan FastVLM Menjanjikan AI Visi di Perangkat dengan Waktu Respons 85x Lebih Cepat

BigGo Editorial Team
Terobosan FastVLM Menjanjikan AI Visi di Perangkat dengan Waktu Respons 85x Lebih Cepat

Para peneliti Apple telah memperkenalkan FastVLM, sebuah model bahasa visi yang revolusioner yang dirancang untuk pemrosesan efisien di perangkat, memicu diskusi antusias di kalangan pengembang dan advokat aksesibilitas. Penelitian ini, yang akan dipresentasikan pada CVPR 2025, memperkenalkan encoder visi hybrid baru yang secara dramatis mengurangi waktu pemrosesan sambil mempertahankan kinerja tinggi.

Gambaran umum repositori GitHub untuk FastVLM, menampilkan antarmuka yang bersih dan konten teknis yang relevan bagi pengembang dan peneliti
Gambaran umum repositori GitHub untuk FastVLM, menampilkan antarmuka yang bersih dan konten teknis yang relevan bagi pengembang dan peneliti

Peningkatan Kecepatan Revolusioner untuk AI Visi

Pencapaian paling menonjol dari FastVLM adalah peningkatan kecepatan yang luar biasa, dengan varian terkecilnya memberikan Time-to-First-Token (TTFT) 85 kali lebih cepat dibandingkan solusi yang ada seperti LLAVA-OneVision-0.5B. Pengurangan latensi yang dramatis ini merupakan ambang batas penting untuk aplikasi praktis AI visi dalam perangkat sehari-hari. Kemampuan teknologi ini untuk memproses informasi visual dengan cepat mengatasi salah satu hambatan terbesar dalam model bahasa visi saat ini, berpotensi memungkinkan asisten AI yang benar-benar responsif yang dapat melihat dan menafsirkan dunia dalam waktu hampir nyata.

Dengan itu, alat bantu yang sangat berguna untuk tunanetra dapat dibuat, berjalan hanya di ponsel mereka, yang diumpankan dari kamera di kacamata mereka. Seseorang yang tidak dapat bergerak tanpa asisten bisa menjadi mandiri dalam kehidupan sehari-hari.

Varian Model FastVLM

Model Parameter Performa Unggulan
FastVLM-0.5B 0,5 miliar 85x lebih cepat TTFT dibandingkan LLAVA-OneVision-0.5B, 3,4x lebih kecil encoder visi
FastVLM-1.5B 1,5 miliar Tersedia dalam varian Stage 2 dan Stage 3
FastVLM-7B 7 miliar Menggunakan Qwen2-7B LLM, mengungguli Cambrian-1-8B dengan TTFT 7,9x lebih cepat

Semua model tersedia dalam format yang kompatibel dengan Apple Silicon untuk inferensi di perangkat.

Strategi Pemrosesan di Perangkat Semakin Populer

Penelitian ini sejalan dengan apa yang dilihat banyak orang dalam komunitas sebagai strategi AI jangka panjang Apple: memprioritaskan pemrosesan di perangkat untuk meningkatkan privasi, mengurangi biaya, dan menurunkan latensi. Desain efisien FastVLM memungkinkannya berjalan langsung di Apple Silicon, dengan repositori yang menyediakan instruksi untuk mengekspor model ke format yang kompatibel dengan iPhone, iPad, dan Mac. Pendekatan ini berbeda dengan sistem AI berbasis cloud yang memerlukan konektivitas internet konstan dan menimbulkan masalah privasi ketika memproses data visual yang sensitif.

Meskipun beberapa komentator menyatakan kekecewaan bahwa implementasi ini menggunakan PyTorch daripada kerangka MLX dari Apple, respons keseluruhan terhadap teknologi ini sangat positif, dengan pengembang yang sudah merencanakan untuk memasukkannya ke dalam aplikasi mulai dari alat aksesibilitas hingga utilitas pengurai layar.

Potensi Transformatif untuk Aksesibilitas

Mungkin diskusi paling emosional seputar FastVLM berpusat pada potensinya untuk mengubah aksesibilitas bagi individu dengan gangguan penglihatan. Anggota komunitas, termasuk orang tua dari anak-anak dengan gangguan penglihatan, mengungkapkan harapan mendalam tentang bagaimana teknologi ini dapat memberikan kemandirian dan peluang baru. Kemampuan untuk memproses informasi visual dengan cepat pada perangkat pribadi dapat memungkinkan teknologi bantuan yang mendeskripsikan lingkungan sekitar, mengidentifikasi objek, dan membantu navigasi lingkungan tanpa memerlukan peralatan khusus atau konektivitas internet konstan.

Tim peneliti telah menyediakan berbagai ukuran model, dari versi parameter 0.5B yang ringan hingga varian parameter 7B yang lebih mampu, memungkinkan pengembang untuk menyeimbangkan kinerja dengan batasan perangkat. Repositori ini mencakup instruksi terperinci untuk inferensi dan fine-tuning, berpotensi mempercepat adopsi di berbagai aplikasi.

Seiring visi menjadi semakin penting bagi sistem AI, pendekatan FastVLM untuk pengkodean yang efisien mungkin terbukti menjadi kemajuan penting dalam membawa pemahaman visual yang canggih ke perangkat sehari-hari. Dengan perangkat keras pemrosesan neural Apple yang sudah digunakan di jutaan perangkat, panggung tampaknya siap untuk generasi baru aplikasi AI visi yang responsif dan menjaga privasi.

Referensi: FastVLM: Efficient Vision Encoding for Vision Language Models