Peluncuran ambisius model AI terbaru dari Meta telah dibayangi oleh pertanyaan tentang transparansi dan klaim kinerja. Raksasa media sosial ini baru-baru ini memperkenalkan generasi baru model bahasa besarnya, Llama 4, namun peluncuran tersebut dengan cepat terjerat dalam kontroversi mengenai praktik pengujian benchmark yang menimbulkan keraguan di seluruh komunitas AI.
Keluarga Llama 4
Meta baru-baru ini merilis keluarga model multi-modal Llama 4, mengklaim peningkatan kinerja yang signifikan dibandingkan pesaing. Perusahaan ini memperkenalkan tiga model dalam generasi baru ini: Llama 4 Scout, Llama 4 Maverick, dan Llama 4 Behemoth. Menurut Meta, yang terbesar di antaranya - Behemoth - memiliki total parameter mengesankan sebanyak 2 triliun dan diklaim mengungguli model dari pemimpin industri OpenAI, Anthropic, dan Google pada beberapa benchmark STEM. Namun, meskipun Meta telah membuat klaim berani tentang kemampuan Behemoth, model unggulan ini belum tersedia untuk publik, dengan hanya model Scout dan Maverick yang lebih kecil saat ini dapat diakses oleh pengembang.
Keluarga Model Llama 4 dari Meta:
- Llama 4 Scout: Model yang lebih kecil, tersedia untuk umum
- Llama 4 Maverick: Model berukuran menengah, tersedia untuk umum (namun versi yang diuji berbeda dengan versi yang dirilis)
- Llama 4 Behemoth: Model terbesar dengan 2 triliun parameter, belum tersedia untuk umum
Kontroversi Benchmark Muncul
Peluncuran tersebut dengan cepat menghadapi kritik ketika pengembang menemukan perbedaan antara apa yang telah di-benchmark oleh Meta dan apa yang sebenarnya dirilis ke publik. Secara khusus, kontroversi berpusat pada Llama 4 Maverick, yang dievaluasi pada platform LM Arena yang populer di mana orang membandingkan dan menilai respons model AI. TechCrunch melaporkan bahwa Meta telah melakukan benchmark pada versi Maverick yang lebih halus dibandingkan dengan yang dirilis ke publik untuk pengembang, fakta yang hanya disebutkan dalam cetakan kecil di blog post Meta sendiri. Pengungkapan ini mendorong LM Arena untuk mengumumkan bahwa mereka akan memperbarui kebijakan mereka untuk evaluasi model yang adil dan dapat direproduksi di masa depan.
Detail Kontroversi Benchmark:
- Platform: LM Arena
- Masalah: Meta melakukan benchmark versi Llama 4 Maverick yang lebih terlatih dibandingkan dengan yang dirilis untuk publik
- Pengungkapan: Hanya disebutkan dalam catatan kecil di blog post Meta
- Hasil: LM Arena memperbarui kebijakan untuk "evaluasi yang adil dan dapat direproduksi"
Respons LM Arena
Platform benchmark tersebut dengan cepat menangani situasi ini, menyatakan di media sosial: Interpretasi Meta terhadap kebijakan kami tidak sesuai dengan apa yang kami harapkan dari penyedia model. Akibatnya, kami memperbarui kebijakan leaderboard kami untuk memperkuat komitmen kami terhadap evaluasi yang adil dan dapat direproduksi sehingga kebingungan ini tidak terjadi di masa depan. Insiden ini telah menimbulkan pertanyaan serius tentang keandalan benchmark AI dan transparansi klaim yang dibuat oleh pengembang AI besar tentang kinerja model mereka.
Klaim Kinerja Di Bawah Pengawasan
Meta telah memposisikan Llama 4 sebagai model yang berkinerja lebih baik dan lebih hemat biaya dibandingkan GPT-4o dari OpenAI dan Gemini 2.0 dari Google untuk tugas-tugas termasuk penulisan kreatif, pengkodean, dan peringkasan dokumen. Namun, kontroversi benchmark telah menimbulkan keraguan atas pernyataan ini, dengan peneliti AI menggunakan platform media sosial seperti X (sebelumnya Twitter) untuk menyoroti perbedaan tersebut. Situasi ini menegaskan kekhawatiran yang berkembang tentang bagaimana kemampuan AI diukur dan dilaporkan dalam pasar yang semakin kompetitif.
Konteks Persaingan AI yang Lebih Luas
Kontroversi ini muncul pada saat persaingan di bidang AI semakin intensif. Microsoft baru-baru ini merayakan ulang tahun ke-50 dengan menyoroti inovasi AI-nya dan mengumumkan kemampuan baru untuk asisten Copilot-nya. Sementara itu, industri menghadapi tantangan potensial dari tarif baru yang diumumkan Presiden Trump, yang meskipun mengecualikan semikonduktor, dapat meningkatkan biaya untuk membangun pusat data besar tempat model AI dilatih.
![]() |
---|
Kantor pusat Microsoft merayakan ulang tahun ke-50, menampilkan evolusi dan inovasi perusahaan, sejajar dengan persaingan yang semakin meningkat di sektor AI |
Implikasi untuk Transparansi AI
Kontroversi benchmark Llama 4 menyoroti masalah yang berkembang dalam industri AI: kebutuhan akan metode evaluasi yang terstandarisasi dan transparan. Saat perusahaan berlomba untuk mengklaim kinerja superior untuk model mereka, insiden ini menjadi pengingat bahwa benchmark tidak selalu menjadi ukuran yang andal untuk kemampuan AI. Bagi pengembang dan bisnis yang ingin mengadopsi teknologi ini, hal ini menekankan pentingnya melakukan evaluasi independen daripada hanya mengandalkan klaim vendor.
Apa Selanjutnya untuk Strategi AI Meta
Terlepas dari kontroversi, Meta terus memposisikan dirinya sebagai pemain utama dalam gerakan AI open-source. Strategi perusahaan untuk merilis model dengan kemampuan dan ukuran yang bervariasi bertujuan untuk menyediakan opsi untuk kasus penggunaan dan batasan komputasi yang berbeda. Namun, insiden ini mungkin mendorong Meta untuk mempertimbangkan kembali bagaimana mereka berkomunikasi tentang kinerja model dan benchmarking di masa depan, karena kepercayaan dan transparansi menjadi faktor yang semakin penting dalam lanskap AI yang kompetitif.