Perpustakaan ART Membuat Pembelajaran Penguatan Lebih Mudah Diakses untuk Pelatihan LLM

BigGo Editorial Team
Perpustakaan ART Membuat Pembelajaran Penguatan Lebih Mudah Diakses untuk Pelatihan LLM

Perpustakaan sumber terbuka Agent Reinforcement Trainer ( ART ) mendapatkan perhatian di komunitas AI karena pengembang menunjukkan hasil yang mengesankan dalam melatih model bahasa melalui pembelajaran penguatan. Perpustakaan ini bertujuan untuk menyederhanakan proses kompleks pembelajaran penguatan untuk model bahasa besar (LLM), membuatnya dapat diakses bagi pengembang untuk melatih model pada tugas khusus tanpa keahlian ML yang ekstensif.

Menjembatani Kesenjangan Antara SFT dan RL

Salah satu diskusi paling berwawasan dalam komunitas berpusat pada perbedaan antara pendekatan supervised fine-tuning (SFT) dan reinforcement learning (RL). Sementara SFT melatih model untuk menghasilkan token keluaran tertentu berdasarkan input, pembelajaran penguatan berfokus pada optimalisasi untuk fungsi penghargaan.

RL, di sisi lain, hanya berarti melatih model bukan untuk menghasilkan rangkaian konkret token keluaran, tetapi untuk menciptakan output yang memaksimalkan beberapa fungsi penghargaan (Anda yang menentukan penghargaannya).

Pendekatan ini terbukti sangat berharga dalam skenario di mana memeriksa jawaban lebih mudah daripada menghasilkannya. Misalnya, dalam contoh agen penelitian email yang dibagikan oleh tim ART, model dilatih untuk secara efektif menggunakan pencarian kata kunci untuk menemukan email yang relevan—strategi yang tidak secara eksplisit diprogram oleh pengembang tetapi yang ditemukan model melalui pembelajaran penguatan.

Implementasi Fleksibel dengan API Kompatibel OpenAI

ART membedakan dirinya melalui pendekatan implementasi yang fleksibel. Daripada memaksa pengembang untuk bekerja dalam kerangka kerja yang kaku, ART menyediakan endpoint API yang kompatibel dengan OpenAI yang berfungsi sebagai pengganti drop-in untuk API eksklusif. Pilihan desain ini memungkinkan pengembang untuk mengintegrasikan ART ke dalam basis kode yang ada dengan modifikasi minimal.

Perpustakaan ini membagi fungsionalitas antara klien dan server. Klien berinteraksi dengan kode pengembang, sementara server menangani bagian inferensi dan pelatihan yang kompleks dari loop pembelajaran penguatan. Pemisahan ini mengabstraksi banyak kompleksitas sambil tetap memungkinkan kustomisasi.

Tugas Agen yang Didukung oleh ART

Tugas Agen Deskripsi Model yang Digunakan
2048 Agen permainan Qwen 2.5 3B
Temporal Clue Pemecah teka-teki Qwen 2.5 7B
Tic Tac Toe Agen permainan Qwen 2.5 3B

Ikhtisar Siklus Pelatihan ART

  1. Inferensi

    • Kode menggunakan klien ART untuk alur kerja agentik
    • Permintaan diarahkan ke server ART yang menjalankan LoRA terbaru model dalam vLLM
    • Pesan disimpan dalam Trajektori
    • Penyelesaian rollout memicu penugasan reward
  2. Pelatihan

    • Trajektori dikelompokkan dan dikirim ke server
    • Server melatih model menggunakan algoritma GRPO
    • LoRA yang baru dilatih disimpan dan dimuat ke dalam VLLM
    • Inferensi dilanjutkan dengan model yang telah ditingkatkan

Aplikasi Dunia Nyata Menunjukkan Harapan

Anggota komunitas telah menyoroti agen email ART sebagai demonstrasi yang meyakinkan tentang kemampuan perpustakaan. Agen tersebut dilatih untuk secara efisien mencari email menggunakan kata kunci, mempelajari strategi pencarian optimal melalui penguatan daripada pemrograman eksplisit.

Perpustakaan ini saat ini mendukung pelatihan pada berbagai tugas, termasuk permainan seperti 2048, Temporal Clue, dan Tic Tac Toe, dengan tolok ukur yang menunjukkan peningkatan kinerja komparatif. Contoh-contoh ini berfungsi sebagai titik masuk bagi pengembang yang ingin memahami bagaimana ART dapat diterapkan pada kasus penggunaan mereka sendiri.

Status Pengembangan dan Keterlibatan Komunitas

ART saat ini dalam tahap alfa, dengan tim pengembangan yang secara aktif mencari umpan balik dan kontribusi. Endpoint API HTTP masih dapat berubah, menunjukkan penyempurnaan kerangka kerja yang sedang berlangsung. Tim mengakui bahwa mereka masih menguji ART di lapangan dan mendorong pengguna untuk melaporkan masalah melalui Discord atau GitHub.

Proyek ini dibangun di atas beberapa proyek sumber terbuka yang mapan, termasuk Unsloth, VLLM, trl, dan SkyPilot, menunjukkan sifat kolaboratif dari kemajuan dalam alat AI.

Seiring dengan semakin banyak pengembang bereksperimen dengan ART, kita dapat mengharapkan untuk melihat berbagai aplikasi yang berkembang di mana pembelajaran penguatan meningkatkan kinerja LLM pada tugas-tugas spesifik, berpotensi mendemokratisasi akses ke teknik pelatihan AI canggih yang sebelumnya terbatas pada organisasi dengan keahlian dan sumber daya ML yang substansial.

Referensi: Agent Reinforcement Trainer (ART)