Model GPT Terbaru dari OpenAI Menunjukkan Peningkatan Mengkhawatirkan dalam Halusinasi

BigGo Editorial Team
Model GPT Terbaru dari OpenAI Menunjukkan Peningkatan Mengkhawatirkan dalam Halusinasi

Kecerdasan buatan telah membuat kemajuan luar biasa dalam beberapa tahun terakhir, tetapi tren yang mengkhawatirkan telah muncul dengan generasi terbaru model bahasa. Menurut pengujian internal dari OpenAI sendiri, sistem AI terbaru dan paling canggih mereka semakin rentan membuat hal-hal yang tidak benar, memunculkan pertanyaan serius tentang keandalan dan aplikasi praktis dalam skenario dunia nyata.

Angka Mengkhawatirkan di Balik Masalah Halusinasi GPT

Investigasi OpenAI terhadap model terbarunya mengungkapkan kemunduran yang mengejutkan dalam akurasi faktual. Model GPT-o3 milik perusahaan, yang digembar-gemborkan sebagai sistem paling kuat, berhalusinasi 33 persen waktu ketika menjawab pertanyaan tentang tokoh publik dalam tes benchmark PersonQA. Ini mewakili lebih dari dua kali lipat tingkat halusinasi dari sistem penalaran OpenAI sebelumnya, o1. Yang lebih mengkhawatirkan, model o4-mini baru berkinerja jauh lebih buruk, dengan tingkat halusinasi 48 persen pada tes yang sama. Ketika diuji dengan benchmark SimpleQA, yang mengajukan pertanyaan pengetahuan umum, hasilnya bahkan lebih mengkhawatirkan – o3 berhalusinasi 51 persen waktu, sementara o4-mini mencapai tingkat halusinasi yang mencengangkan sebesar 79 persen. Model o1 sebelumnya, sebagai perbandingan, berhalusinasi 44 persen waktu pada tes ini.

Tingkat Halusinasi pada Model OpenAI

Model Benchmark PersonQA Benchmark SimpleQA
GPT-o1 ~16,5% 44%
GPT-o3 33% 51%
GPT-o4-mini 48% 79%

Paradoks Penalaran Tingkat Lanjut

Peningkatan tingkat halusinasi menghadirkan kontradiksi yang membingungkan dalam pengembangan AI. Model-model baru ini secara khusus dirancang sebagai sistem penalaran yang mampu memecah masalah kompleks menjadi langkah-langkah logis, mirip dengan proses berpikir manusia. OpenAI sebelumnya mengklaim bahwa o1 dapat menyamai atau melampaui kinerja mahasiswa PhD di bidang seperti fisika, kimia, biologi, dan matematika. Ekspektasinya adalah penalaran yang lebih canggih akan menghasilkan akurasi yang lebih besar, tetapi yang terjadi justru sebaliknya. Beberapa pengamat industri menyarankan bahwa mekanisme yang memungkinkan penalaran lebih kompleks mungkin menciptakan peluang tambahan bagi kesalahan untuk bertambah. Ketika model-model ini mencoba menghubungkan fakta-fakta yang berbeda dan mengevaluasi beberapa jalur yang mungkin, mereka tampaknya lebih cenderung masuk ke wilayah spekulatif di mana fiksi menjadi tidak dapat dibedakan dari fakta.

Tanggapan OpenAI terhadap Masalah yang Berkembang

OpenAI telah mengakui masalah ini tetapi menolak narasi bahwa model penalaran secara inheren menderita peningkatan tingkat halusinasi. Gaby Raila, perwakilan OpenAI, mengatakan kepada The New York Times bahwa Halusinasi tidak secara inheren lebih lazim dalam model penalaran, meskipun kami secara aktif bekerja untuk mengurangi tingkat halusinasi yang lebih tinggi yang kami lihat di o3 dan o4-mini. Perusahaan telah mengindikasikan bahwa penelitian lebih lanjut diperlukan untuk memahami mengapa model terbaru lebih cenderung membuat informasi. Ini menunjukkan bahwa penyebab yang mendasarinya tetap misterius bahkan bagi para pencipta sistem ini, menyoroti sifat kotak hitam dari model bahasa besar yang terus menantang para peneliti AI.

Implikasi Praktis untuk Adopsi AI

Masalah halusinasi yang meningkat menimbulkan tantangan signifikan untuk aplikasi AI praktis. Ketika sistem ini semakin banyak digunakan di ruang kelas, kantor, rumah sakit, dan lembaga pemerintah, risiko menyebarkan informasi palsu meningkat. Para profesional hukum telah menghadapi konsekuensi karena menggunakan ChatGPT tanpa memverifikasi kutipannya, dan masalah serupa dapat muncul dalam banyak konteks lain. Proposisi nilai fundamental dari asisten AI – menghemat waktu dan mengurangi beban kerja – terganggu ketika pengguna harus memeriksa fakta setiap output dengan teliti. Ini menciptakan situasi paradoks di mana alat AI yang lebih kuat mungkin sebenarnya memerlukan lebih banyak pengawasan manusia, bukan kurang. Sampai masalah halusinasi ini teratasi, pengguna akan bijaksana untuk mendekati konten yang dihasilkan AI dengan skeptisisme yang cukup, terutama ketika akurasi sangat penting.

Kekhawatiran Utama tentang Halusinasi AI

  • Berkurangnya kepercayaan dalam lingkungan profesional
  • Potensi konsekuensi hukum akibat mengandalkan informasi yang dibuat-buat
  • Berkurangnya manfaat penghematan waktu karena perlunya pemeriksaan fakta
  • Tantangan untuk penerapan di lingkungan berisiko tinggi seperti layanan kesehatan atau pemerintahan
Gambar ini menyoroti teknologi di balik sistem AI, menggarisbawahi peran penting yang dimainkan oleh informasi yang akurat dalam penerapannya di berbagai sektor
Gambar ini menyoroti teknologi di balik sistem AI, menggarisbawahi peran penting yang dimainkan oleh informasi yang akurat dalam penerapannya di berbagai sektor

Masa Depan AI yang Dapat Dipercaya

Agar sistem AI mencapai potensi yang dijanjikan, masalah halusinasi harus diatasi. Industri menghadapi tantangan kritis: bagaimana mempertahankan kemampuan penalaran tingkat lanjut dari model yang lebih baru sambil meningkatkan keandalan faktualnya. OpenAI dan pesaing seperti Google dan Anthropic tidak diragukan lagi sedang bekerja untuk memecahkan masalah ini, tetapi solusinya tetap sulit dipahami. Situasi saat ini menunjukkan bahwa pengembangan AI mungkin telah mencapai titik di mana peningkatan kecanggihan datang dengan biaya kepercayaan – setidaknya untuk sementara. Saat penelitian berlanjut, pengguna harus mempertahankan perspektif yang seimbang, menghargai kemampuan mengesankan dari sistem ini sambil mengenali keterbatasan signifikan mereka. Pencarian AI yang dapat bernalar seperti manusia sambil mempertahankan presisi seperti mesin dengan fakta terus berlanjut, tetapi untuk saat ini, verifikasi manusia tetap menjadi komponen penting dalam bekerja dengan sistem AI yang paling canggih sekalipun.