Peluncuran terbaru dukungan Llama 3.2 Vision di Ollama menandai pencapaian teknis yang signifikan, namun diskusi komunitas mengungkapkan kompleksitas teknis di balik implementasi ini dan berbagai pertimbangan praktis bagi pengguna.
Perombakan Teknis Besar
Implementasi Llama 3.2 Vision di Ollama melibatkan perubahan arsitektur yang substansial. Tim pengembang menulis ulang bagian penting dari basis kode, beralih dari C++ ke Golang untuk komponen-komponen utama. Ini termasuk rutinitas pemrosesan gambar baru, encoder vision, dan mekanisme cross-attention, bersama dengan perombakan lengkap pada penjadwal model.
Ini merupakan upaya besar bagi kami untuk menyelesaikannya, itulah mengapa membutuhkan waktu cukup lama. Selain menulis rutinitas pemrosesan gambar baru, encoder vision, dan melakukan cross attention, kami juga akhirnya merombak cara model dijalankan oleh penjadwal. Source
Performa dan Kebutuhan Perangkat Keras
Diskusi komunitas menyoroti pertimbangan praktis penting bagi pengguna:
- Model 11B membutuhkan minimal 8GB VRAM
- Model 90B membutuhkan setidaknya 64GB VRAM
- Pengujian awal menunjukkan hasil beragam untuk tugas pengenalan gambar dasar
- Model dapat berjalan di perangkat keras konsumen seperti MacBook, meskipun performa bervariasi
Keterbatasan dan Masalah Saat Ini
Pengguna telah mengidentifikasi beberapa area yang menjadi perhatian:
- Pengujian awal menunjukkan beberapa masalah akurasi dengan tugas dasar seperti menghitung objek dan identifikasi warna
- Laporan tentang sensor konten yang ketat dibandingkan dengan model vision lainnya
- Masalah antarmuka dengan pengeditan multi-baris dan penanganan nama file
- Kekhawatiran keamanan terkait deteksi dan pembacaan file otomatis
Pengembangan Masa Depan
Tim Ollama telah mengindikasikan rencana untuk memperluas kemampuan multimodal, dengan potensi integrasi model lain seperti Pixtral dan Qwen2.5-vl dalam pengembangan. Ada juga minat berkelanjutan dari komunitas untuk dukungan Vulkan Compute, meskipun pull request masih dalam tahap peninjauan.
Implementasi ini merupakan perbedaan signifikan dari basis kode llama.cpp original, dengan implementasi kustom untuk pemrosesan gambar dan rutinitas encoder menggunakan GGML. Pergeseran arsitektur ini mungkin memiliki implikasi untuk pengembangan dan kompatibilitas di masa depan.
Source: Ollama Blog - Llama 3.2 Vision Source: Hacker News Discussion