Komunitas kecerdasan buatan tengah dilanda kontroversi menyusul terungkapnya akses OpenAI terhadap soal-soal benchmark FrontierMath, yang menimbulkan kekhawatiran serius tentang validitas kinerja model O3 terbaru mereka. Perkembangan ini telah memicu perdebatan sengit tentang transparansi dan keadilan dalam evaluasi model AI.
Gambar ini menggambarkan diskusi tentang akses kontroversial OpenAI terhadap materi pengujian FrontierMath, yang menekankan kekhawatiran komunitas mengenai transparansi dalam evaluasi AI |
Kontroversi FrontierMath
Sebuah pengungkapan penting dari kontraktor Epoch AI di forum LessWrong mengungkapkan bahwa OpenAI tidak hanya mendanai tes benchmark FrontierMath tetapi juga menerima akses istimewa ke bank soalnya. Informasi ini tidak diungkapkan hingga peluncuran O3 pada 20 Desember 2024, yang menimbulkan keraguan atas tingkat akurasi yang dilaporkan sebesar 25,2%, jauh melampaui kinerja pesaing yang di bawah 2%.
Perbandingan Kinerja Model:
- OpenAI O3: tingkat akurasi 25,2% pada FrontierMath
- GPT-4 dan Gemini: tingkat akurasi kurang dari 2%
Signifikansi Benchmark
FrontierMath merupakan alat evaluasi penting dalam penalaran matematika tingkat lanjut, yang dikembangkan melalui kolaborasi antara Epoch AI dan lebih dari 60 matematikawan elit, termasuk pemenang Fields Medal dan pembuat soal International Mathematical Olympiad. Benchmark ini terdiri dari ratusan soal orisinal yang menantang dari berbagai disiplin matematika, dengan tingkat kesulitan yang bahkan membutuhkan waktu berhari-hari bagi para ahli untuk menyelesaikannya.
Cakupan Tolak Ukur FrontierMath:
- Bidang matematika: Teori Bilangan, Analisis Real, Geometri Aljabar, Teori Kategori
- Kontributor: Lebih dari 60 matematikawan terkemuka termasuk pemenang Medali Fields
- Tingkat kesulitan soal: Membutuhkan waktu dari beberapa jam hingga berhari-hari bagi para ahli untuk menyelesaikannya
Tanggapan dan Kritik Akademis
Kandidat doktor matematika Stanford University, Carina Hong, telah menghadirkan kesaksian dari enam matematikawan terkemuka yang berkontribusi pada FrontierMath, mengungkapkan ketidaktahuan mereka tentang hak akses eksklusif OpenAI. Mayoritas menyatakan bahwa mereka mungkin akan menolak berpartisipasi jika mengetahui pengaturan ini sebelumnya.
Tanggapan Epoch AI
Tamay Besiroglu, wakil direktur dan co-founder Epoch AI, telah mengakui kurangnya transparansi, menjelaskan bahwa kewajiban kontraktual mencegah pengungkapan lebih awal. Meski menegaskan bahwa pendanaan OpenAI terbatas pada pengembangan tanpa mempengaruhi konten tes, mereka mengkonfirmasi akses OpenAI ke sebagian besar soal dan solusi, kecuali set tes yang dicadangkan untuk verifikasi independen.
Kritik Ahli
Pakar AI ternama Gary Marcus telah mengkritik keras situasi ini, menggambarkan demonstrasi O3 OpenAI sebagai menyesatkan dan tidak ilmiah. Kontroversi ini terutama berfokus pada kurangnya pengungkapan mengenai soal mana yang muncul dalam data pelatihan dan tidak adanya catatan proses penalaran yang terperinci.
Implikasi Masa Depan
Seiring berkembangnya kontroversi ini, OpenAI telah mengumumkan kemajuan dalam proyek Operator mereka, dengan CEO Altman dijadwalkan untuk briefing tertutup dengan pemerintah AS pada 30 Januari 2025. Waktu ini telah menimbulkan spekulasi tentang strategi manajemen krisis dan implikasi yang lebih luas bagi praktik industri AI.