Dalam perkembangan yang mengejutkan bagi komunitas peneliti AI, sebuah makalah baru berjudul Understanding R1-Zero-Like Training: A Critical Perspective telah menantang asumsi yang berlaku tentang bagaimana model bahasa besar (LLM) mengembangkan kemampuan penalaran. Penelitian ini menunjukkan bahwa model dasar seperti DeepSeek-V3-Base dan Qwen2.5 sudah memiliki kemampuan penalaran yang signifikan sebelum menjalani pelatihan pembelajaran penguatan khusus.
Model Dasar Sudah Menunjukkan Penalaran Tingkat Lanjut
Menurut makalah penelitian tersebut, model DeepSeek-V3-Base sudah menunjukkan apa yang disebut peneliti sebagai momen Aha - terobosan kemampuan penalaran yang banyak dikaitkan dengan teknik pelatihan R1-Zero khusus. Yang lebih mengejutkan adalah temuan bahwa model dasar Qwen2.5 menunjukkan kemampuan penalaran yang kuat tanpa template prompt, dengan skor benchmark meningkat sekitar 60% dibandingkan dengan metode prompting tradisional.
Pengungkapan ini telah memicu diskusi signifikan di komunitas teknis, dengan banyak ahli mempertanyakan nilai sebenarnya yang ditambahkan oleh proses pembelajaran penguatan yang ekstensif.
Saya ingin menawarkan penjelasan alternatif yang mungkin. Setelah melatih cukup banyak LLM, terutama tentang peningkatan dari model penyelesaian teks menjadi model instruksi, saya memperhatikan bahwa kemampuan mengikuti instruksi cenderung tidak seragam di semua tugas yang dapat dilakukan LLM.
Temuan Kunci dari Penelitian
- Model-model DeepSeek-V3-Base sudah menunjukkan kemampuan "Aha moment" sebelum pelatihan khusus
- Model dasar Qwen2.5 menunjukkan peningkatan sekitar 60% dalam skor benchmark tanpa template prompt
- Algoritma GRPO menyebabkan optimisasi yang bias, diatasi dengan perbaikan "Dr. GRPO" yang diusulkan
- Resep minimalis R1-Zero mencapai performa SOTA hanya dengan 27 jam komputasi pada 8x GPU A100
- Template dan set pertanyaan bekerja berpasangan untuk mempengaruhi dinamika RL
- Llama juga dapat di-tune dengan RL dari model dasar dengan pretraining domain-spesifik yang meningkatkan batas atas RL
![]() |
---|
Gambar ini menampilkan skenario pemecahan masalah matematika yang terkait dengan kemampuan penalaran model-model dasar |
Mempertanyakan Peran Token Chain-of-Thought
Diskusi komunitas telah menyoroti kekhawatiran tentang apa yang disebut peneliti sebagai Refleksi Diri Superfisial dalam model-model ini. Banyak pengguna mengamati bahwa kesimpulan dalam output model tidak selalu secara alami mengikuti token pemikiran yang dihasilkan selama proses chain-of-thought. Ketidaksesuaian ini menimbulkan pertanyaan tentang peran sebenarnya dari token pemikiran tersebut dalam meningkatkan kinerja.
Beberapa komentator menyarankan bahwa manfaat dari token tambahan mungkin jauh lebih sederhana daripada yang umumnya diyakini - lebih banyak token hanya mengurangi pilihan untuk string output akhir, daripada mewakili pemikiran sebenarnya. Yang lain mengusulkan bahwa bahkan menambahkan spasi kosong atau karakter berulang mungkin meningkatkan kualitas output dengan memungkinkan model memasuki keadaan internal yang berbeda, secara efektif menggunakan token ini sebagai titik perantara pemrosesan.
Peningkatan Efisiensi dalam Pelatihan R1-Zero
Makalah tersebut memperkenalkan pendekatan yang lebih efisien untuk pelatihan seperti R1-Zero, mengusulkan perbaikan pada algoritma GRPO (Generalized Reinforcement Learning from Preference Optimization) yang meningkatkan efisiensi token sambil mempertahankan kinerja penalaran. Pendekatan yang dimodifikasi ini, disebut Dr. GRPO (GRPO Done Right), memungkinkan para peneliti mencapai kinerja terbaik dengan RL-tuning Qwen2.5-Math-7B pada pertanyaan MATH level 3-5 dengan sumber daya komputasi yang sangat sederhana - hanya 27 jam pada 8 GPU A100.
Bagi komunitas AI, terutama mereka yang menjalankan model bobot terbuka pada perangkat keras konsumen, peningkatan efisiensi ini dapat secara signifikan mengurangi biaya waktu inferensi yang terkait dengan proses chain-of-thought panjang yang saat ini mengkonsumsi ruang jendela konteks yang berharga.
![]() |
---|
Gambar ini mengilustrasikan rumus Dr GRPO dan perbandingan efisiensi token, menyoroti kemajuan dalam pelatihan pembelajaran penguatan |
Kebutuhan akan Evaluasi Ketat dan Lebih Sedikit Hype
Penelitian ini hadir pada saat banyak orang di komunitas AI menyerukan evaluasi yang lebih kritis terhadap kemampuan model dan lebih sedikit hype pemasaran. Para komentator telah menunjuk pada contoh lain di mana hasil benchmark telah dilebih-lebihkan, seperti benchmark coding SWE-verified yang digunakan oleh vendor besar yang dilaporkan memiliki kurang dari 10% masalah yang diselesaikan dengan benar.
Beberapa anggota komunitas tetap skeptis tentang klaim penalaran sejati dalam model-model ini, menunjukkan bahwa apa yang tampak sebagai penalaran mungkin hanya pencocokan pola statistik berdasarkan data pelatihan yang ekstensif. Perbedaan antara numerasi (kemampuan perhitungan dasar) dan penalaran matematis yang asli terus diperdebatkan.
Penelitian ini merupakan langkah penting menuju penilaian kemampuan AI yang lebih transparan dan realistis, menyoroti kebutuhan untuk memahami apa yang sebenarnya dilakukan oleh model-model ini daripada mengatribusikan proses penalaran seperti manusia pada sistem statistik.
Referensi: Understanding R1-Zero-Like Training: A Critical Perspective
![]() |
---|
Grafik batang ini membandingkan kinerja model di berbagai tolok ukur, menekankan pentingnya evaluasi yang ketat dalam kemampuan AI |