Eksperimen terbaru dengan Large Language Models (LLM) dalam memainkan permainan kartu Set telah mengungkapkan keterbatasan menarik dalam kemampuan penalaran mereka, memicu diskusi tentang sifat kecerdasan buatan dan cara berpikir mesin. Meskipun model-model ini unggul dalam tugas pemrograman yang kompleks, mereka menunjukkan kelemahan yang mengejutkan dalam skenario permainan yang membutuhkan penalaran spasial dan logis.
Tantangan Set
Permainan kartu Set menghadirkan kasus uji yang menarik untuk kecerdasan buatan. Pemain harus mengidentifikasi set tiga kartu dari susunan di mana setiap kartu memiliki empat atribut - bentuk, warna, angka, dan bayangan. Yang membuat ini sangat menarik adalah meskipun algoritma tradisional dapat dengan mudah memecahkan permainan ini, bahkan LLM canggih seperti GPT-4 kesulitan menemukan set yang valid atau membuat pernyataan yang salah tentang keberadaannya.
Di Balik Kemahiran Pemrograman
Sebuah pola penting telah muncul dalam cara LLM menangani tugas-tugas terkait permainan. Diskusi komunitas mengungkapkan bahwa meskipun model-model ini dapat dengan mudah menulis kode untuk memecahkan permainan seperti Tic-tac-toe atau Set, mereka sering gagal saat benar-benar memainkan permainan tersebut. Kesenjangan antara kemampuan pemrograman dan performa bermain game ini memunculkan pertanyaan penting tentang sifat penalaran AI.
Saya selalu mengatakan bahwa menambahkan 'use python' ke prompt Anda adalah frasa ajaib yang membuat 4o sangat kuat dalam berbagai tugas.
Perdebatan Mesin Berpikir
Munculnya model penalaran baru seperti DeepThink-R1 dan o3-mini, yang dapat berhasil memecahkan teka-teki Set, telah memicu diskusi baru tentang kesadaran mesin. Anggota komunitas mencatat bahwa meskipun model-model ini menunjukkan peningkatan kemampuan penalaran, pertanyaan mendasar tetap ada tentang apakah ini merupakan pemikiran dalam arti yang bermakna. Beberapa berpendapat bahwa pemikiran manusia mungkin kurang ajaib dari yang sebelumnya diasumsikan, daripada mesin mencapai kemampuan berpikir yang benar-benar ajaib.
Performa Model pada Permainan Set:
- GPT-4o : Menyarankan set yang tidak valid, gagal dalam verifikasi
- Sonnet-3.5 : Gagal namun mengakui kegagalannya
- Mistral : Berhasil menggunakan kode Python
- o3-mini : Menemukan 3 set dalam 1 menit 12 detik
- DeepThink-R1 : Menemukan 3 set dalam 10 menit
Keterbatasan Arsitektur
Pertimbangan teknis penting yang muncul dalam diskusi adalah masalah dekoherensi dalam arsitektur LLM saat ini. Tidak seperti kesadaran manusia yang mempertahankan kontinuitas pemikiran, LLM saat ini beroperasi dalam siklus respons diskrit dan kesulitan mempertahankan keadaan yang persisten. Keterbatasan arsitektur ini mungkin menjelaskan beberapa kesulitan mereka dengan permainan yang membutuhkan penalaran berkelanjutan dan pelacakan keadaan.
Eksplorasi berkelanjutan tentang kemampuan LLM dalam lingkungan permainan terus memberikan wawasan berharga tentang kekuatan dan keterbatasan teknologi AI saat ini, sambil menantang pemahaman kita tentang apa yang merupakan kecerdasan dan penalaran sejati.
Referensi: Let Them Play Set!
![]() |
---|
Halaman repositori GitHub untuk " When AI Fails " menyoroti diskusi dan temuan yang sedang berlangsung mengenai keterbatasan AI dalam tugas-tugas penalaran |