FAIR (Facebook AI Research) dari Meta baru-baru ini menerbitkan makalah berjudul LLMs can see and hear without any training, yang telah memicu perdebatan signifikan di dalam komunitas AI. Makalah tersebut memperkenalkan MILS, sebuah metode yang memungkinkan model bahasa untuk melakukan tugas multimodal seperti pemberian keterangan pada gambar, audio, dan video tanpa pelatihan khusus untuk modalitas tersebut. Namun, reaksi komunitas menunjukkan bahwa judul tersebut mungkin lebih provokatif daripada pencapaian teknis yang sebenarnya.
Arsitektur Actor-Critic dengan Nama Lain
Pada intinya, MILS menggunakan apa yang langsung dikenali oleh banyak anggota komunitas sebagai setup Actor-Critic, meskipun menariknya, terminologi ini tidak ada dalam makalah tersebut. Sistem ini menggunakan Generator (LLM) dan Scorer (seperti CLIP) dalam proses iteratif di mana LLM menghasilkan keterangan dan menerima umpan balik dari model penilaian yang telah dilatih sebelumnya.
Ya, tampaknya mereka telah mengembangkan nama-nama baru: Generator dan Scorer. Ini terasa sedikit seperti fenomena Tai's Model
Pendekatan ini telah memunculkan perbandingan dengan fenomena Tai's Model, di mana konsep-konsep yang sudah mapan diberi merek baru dengan terminologi baru. Komunitas menunjukkan bahwa meskipun metodenya cerdik, cara makalah tersebut dibingkai menunjukkan lebih banyak kebaruan daripada yang mungkin sebenarnya.
Komponen Utama Sistem MILS
- Generator: Sebuah LLM (khususnya model Llama 8B) yang menghasilkan keterangan atau deskripsi
- Scorer: Model yang telah dilatih sebelumnya seperti CLIP yang mengevaluasi output dari Generator
- Alur Kerja: Proses iteratif di mana LLM meningkatkan output berdasarkan umpan balik dari scorer
Tugas-tugas yang Didemonstrasikan dalam Paper
- Pemberian keterangan pada gambar
- Pemberian keterangan pada audio
- Pemberian keterangan pada video
- Pembuatan gambar berkualitas tinggi
- Transfer gaya
- Aritmatika lintas-modal
Judul vs. Realitas: Memahami Klaim
Banyak komentator yang mempermasalahkan judul makalah tersebut, menunjukkan bahwa judul itu salah merepresentasikan apa yang sebenarnya terjadi. Sistem tersebut tidak benar-benar memungkinkan LLM untuk melihat dan mendengar seperti yang tersirat dalam judul. Sebaliknya, sistem ini menciptakan loop umpan balik di mana LLM secara iteratif meningkatkan outputnya berdasarkan skor dari model yang telah dilatih pada data visual atau audio.
Pendekatan ini agak mirip dengan orang buta yang bermain Marco Polo, di mana mereka bernavigasi menuju tujuan berdasarkan umpan balik yang semakin hangat atau dingin. LLM tidak langsung memproses input visual atau audio tetapi menggunakan umpan balik tekstual tentang tebakannya untuk mencapai deskripsi yang tepat.
Kemampuan Emergen atau Rekayasa Cerdas?
Beberapa pembela makalah tersebut menyoroti bahwa pendekatan ini menunjukkan kemampuan emergen dari LLM. Karena model bahasa tidak secara eksplisit dilatih untuk menafsirkan umpan balik dari model visual dan menyesuaikan diri, kemampuannya untuk melakukan hal tersebut dapat dianggap sebagai properti emergen. LLM secara efektif menemukan jalannya menuju deskripsi yang benar tanpa memiliki contoh tugas spesifik ini dalam data pelatihannya.
Namun, para kritikus menunjukkan bahwa sistem tersebut masih sangat bergantung pada model multimodal yang telah dilatih sebelumnya seperti CLIP, yang memang telah dilatih pada sejumlah besar data visual. Perdebatan berpusat pada apakah tanpa pelatihan apa pun adalah karakterisasi yang akurat ketika sistem bergantung pada komponen terlatih lainnya.
Antropomorfisasi Kemampuan AI
Tema berulang dalam komentar-komentar adalah kekhawatiran tentang bahasa antropomorfisasi yang digunakan untuk menggambarkan sistem AI. Beberapa komentator membuat perbandingan satiris dengan perangkat sederhana seperti fotoresistor dan termostat yang dapat melihat kegelapan atau merasakan suhu tanpa pelatihan atau kode apa pun.
Meskipun analogi ini jelas hiperbolik, mereka menyoroti kekhawatiran yang sah tentang bagaimana penelitian AI dikomunikasikan. Penggunaan istilah seperti manusia seperti melihat dan mendengar dapat menciptakan kesalahpahaman tentang apa yang sebenarnya dilakukan oleh sistem ini dan bagaimana cara kerjanya.
Reaksi komunitas terhadap makalah ini mencerminkan ketegangan yang lebih luas dalam komunikasi penelitian AI, di mana tekanan untuk menghasilkan judul yang menarik perhatian terkadang bertentangan dengan deskripsi teknis yang tepat. Ketika laboratorium penelitian besar bersaing untuk mendapatkan perhatian dan pendanaan, ada kekhawatiran yang berkembang tentang boosterisme yang tidak perlu dalam bagaimana kemampuan AI dibingkai.
Terlepas dari kritik ini, pendekatan teknis yang dijelaskan dalam makalah tersebut memang mewakili metode yang menarik untuk memanfaatkan LLM dalam tugas multimodal tanpa fine-tuning khusus tugas, meskipun klaim tanpa pelatihan apa pun memerlukan kualifikasi yang signifikan.
Referensi: LLMs can see and hear without any training
![]() |
---|
Repositori GitHub untuk proyek MILS milik Meta, mengilustrasikan dasar teknis di balik klaim kontroversial yang dibuat tentang kemampuan LLM |