Implementasi Llama 3.2 Vision di Ollama: Perubahan Arsitektur Besar dan Reaksi Komunitas

BigGo Editorial Team

Implementasi Llama 3.2 Vision di Ollama: Perubahan Arsitektur Besar dan Reaksi Komunitas

Peluncuran terbaru dukungan Llama 3.2 Vision di Ollama menandai pencapaian teknis yang signifikan, namun diskusi komunitas mengungkapkan kompleksitas teknis di balik implementasi ini dan berbagai pertimbangan praktis bagi pengguna.

Perombakan Teknis Besar

Implementasi Llama 3.2 Vision di Ollama melibatkan perubahan arsitektur yang substansial. Tim pengembang menulis ulang bagian penting dari basis kode, beralih dari C++ ke Golang untuk komponen-komponen utama. Ini termasuk rutinitas pemrosesan gambar baru, encoder vision, dan mekanisme cross-attention, bersama dengan perombakan lengkap pada penjadwal model.

Ini merupakan upaya besar bagi kami untuk menyelesaikannya, itulah mengapa membutuhkan waktu cukup lama. Selain menulis rutinitas pemrosesan gambar baru, encoder vision, dan melakukan cross attention, kami juga akhirnya merombak cara model dijalankan oleh penjadwal. Source

Performa dan Kebutuhan Perangkat Keras

Diskusi komunitas menyoroti pertimbangan praktis penting bagi pengguna:

Model 11B membutuhkan minimal 8GB VRAM
Model 90B membutuhkan setidaknya 64GB VRAM
Pengujian awal menunjukkan hasil beragam untuk tugas pengenalan gambar dasar
Model dapat berjalan di perangkat keras konsumen seperti MacBook, meskipun performa bervariasi

Keterbatasan dan Masalah Saat Ini

Pengguna telah mengidentifikasi beberapa area yang menjadi perhatian:

Pengujian awal menunjukkan beberapa masalah akurasi dengan tugas dasar seperti menghitung objek dan identifikasi warna
Laporan tentang sensor konten yang ketat dibandingkan dengan model vision lainnya
Masalah antarmuka dengan pengeditan multi-baris dan penanganan nama file
Kekhawatiran keamanan terkait deteksi dan pembacaan file otomatis

Pengembangan Masa Depan

Tim Ollama telah mengindikasikan rencana untuk memperluas kemampuan multimodal, dengan potensi integrasi model lain seperti Pixtral dan Qwen2.5-vl dalam pengembangan. Ada juga minat berkelanjutan dari komunitas untuk dukungan Vulkan Compute, meskipun pull request masih dalam tahap peninjauan.

Implementasi ini merupakan perbedaan signifikan dari basis kode llama.cpp original, dengan implementasi kustom untuk pemrosesan gambar dan rutinitas encoder menggunakan GGML. Pergeseran arsitektur ini mungkin memiliki implikasi untuk pengembangan dan kompatibilitas di masa depan.

Source: Ollama Blog - Llama 3.2 Vision Source: Hacker News Discussion

Berita Terkait

‌

‌
‌

‌

‌
‌

‌