Claude 3.7 Sonnet Meraih Skor Sempurna dalam Evaluasi Keamanan, Menetapkan Standar Baru untuk Keamanan AI

BigGo Editorial Team

Claude 3.7 Sonnet Meraih Skor Sempurna dalam Evaluasi Keamanan, Menetapkan Standar Baru untuk Keamanan AI

Model AI terbaru dari Anthropic, Claude 3.7 Sonnet, sedang membuat gempar di komunitas kecerdasan buatan tidak hanya karena kemampuannya yang canggih, tetapi juga karena menetapkan standar baru dalam keamanan AI. Seiring perusahaan dan pemerintah semakin meneliti model AI untuk potensi kerentanan, Claude 3.7 muncul sebagai model yang mungkin paling aman yang tersedia, menurut evaluasi independen baru-baru ini.

Performa Keamanan yang Belum Pernah Terjadi Sebelumnya

Claude 3.7 Sonnet telah mencapai skor sempurna dalam evaluasi keamanan komprehensif yang dilakukan oleh perusahaan keamanan berbasis London, Holistic AI. Audit yang dibagikan secara eksklusif kepada pengamat industri mengungkapkan bahwa Claude 3.7 berhasil menahan 100% upaya jailbreaking dan memberikan respons aman 100% selama pengujian tim merah. Performa sempurna ini menjadikan Claude 3.7 sebagai model AI yang mungkin paling aman yang tersedia saat ini.

Evaluasi ini menguji Claude 3.7 dalam Thinking Mode dengan anggaran token 16k, mengujinya dengan 37 prompt yang dirancang secara strategis yang bertujuan untuk melewati batasan sistem. Ini termasuk teknik adversarial yang terkenal seperti Do Anything Now (DAN), Strive to Avoid Norms (STAN), dan Do Anything and Everything (DUDE) - semuanya dirancang untuk mendorong model melampaui pedoman etisnya yang telah diprogram.

Hasil Evaluasi Keamanan:

Claude 3.7 Sonnet: 100% ketahanan terhadap jailbreak, 0% respons tidak aman
OpenAI o1: 100% ketahanan terhadap jailbreak, 2% respons tidak aman
DeepSeek R1: 32% ketahanan terhadap jailbreak (memblokir 12 dari 37 percobaan), 11% respons tidak aman
Grok-3: 2,7% ketahanan terhadap jailbreak (memblokir 1 dari 37 percobaan), belum dievaluasi sepenuhnya untuk respons tidak aman

Mengungguli Pesaing

Sementara Claude 3.7 menyamai model penalaran o1 dari OpenAI dalam memblokir 100% upaya jailbreaking, ia unggul dengan tidak menawarkan satu pun respons tidak aman selama bagian tambahan pengujian tim merah dalam audit. Sebagai perbandingan, o1 dari OpenAI menunjukkan tingkat respons tidak aman sebesar 2%, sementara DeepSeek R1 berkinerja jauh lebih buruk dengan tingkat respons tidak aman 11% dan hanya memblokir 32% upaya jailbreaking. Grok-3 berkinerja bahkan lebih buruk, hanya memblokir satu upaya jailbreaking (2,7%).

Kontras yang mencolok dalam kinerja keamanan ini memiliki implikasi dunia nyata. Beberapa organisasi termasuk NASA, Angkatan Laut AS, dan pemerintah Australia telah melarang penggunaan model seperti DeepSeek R1 karena risiko keamanan yang jelas. Dalam lanskap saat ini di mana model AI berpotensi dapat dieksploitasi untuk disinformasi, kampanye peretasan, atau tujuan jahat lainnya, ketahanan keamanan Claude 3.7 mewakili kemajuan yang signifikan.

Kemampuan Canggih di Luar Keamanan

Di luar kredensial keamanannya, Claude 3.7 Sonnet mewakili model AI paling cerdas dari Anthropic hingga saat ini. Dirilis baru minggu lalu, model ini menggabungkan pendekatan dari model GPT dengan kemampuan penalaran rantai pemikiran, menjadikannya sangat serbaguna untuk berbagai aplikasi.

Pengguna dapat memanfaatkan Claude 3.7 untuk tugas kreatif seperti merancang permainan misteri pembunuhan atau membuat animasi, aplikasi praktis seperti membangun aplikasi produktivitas dan permainan browser sederhana, dan fungsi analitis seperti estimasi biaya. Model ini dapat memproses teks dan gambar, memungkinkan interaksi multimodal yang memperluas kegunaannya di berbagai konteks.

Kemampuan Claude 3.7 Sonnet:

Tugas kreatif: Merancang permainan, membuat animasi
Aplikasi praktis: Membangun aplikasi produktivitas, permainan browser
Fungsi analitis: Estimasi biaya dari gambar
Pemrosesan multimodal: Dapat menganalisis teks dan gambar

Implikasi Industri dan Kekhawatiran

Meskipun kinerja keamanan Claude 3.7 mengesankan, masih ada pertanyaan tentang komitmen Anthropic yang lebih luas terhadap keamanan AI. Perusahaan baru-baru ini menghapus beberapa komitmen keamanan sukarela dari situs webnya, meskipun kemudian mengklarifikasi bahwa mereka tetap berkomitmen pada komitmen AI sukarela yang ditetapkan di bawah Administrasi Biden.

Perkembangan ini terjadi pada saat perusahaan AI semakin memperluas bagaimana model mereka dapat digunakan, termasuk dalam aplikasi berisiko lebih tinggi seperti operasi militer. Scale AI, misalnya, baru-baru ini bermitra dengan Departemen Pertahanan AS untuk menggunakan agen AI untuk perencanaan dan operasi militer, langkah yang telah menimbulkan kekhawatiran di antara organisasi hak asasi manusia dan beberapa pihak di dalam industri teknologi itu sendiri.

Menetapkan Tolok Ukur untuk 2025

Seiring model AI menjadi lebih kuat dan terintegrasi ke dalam sistem kritis, evaluasi keamanan seperti yang dilakukan pada Claude 3.7 kemungkinan akan menjadi semakin penting. Laporan Holistic AI menunjukkan bahwa ketahanan adversarial Claude 3.7 yang sempurna menetapkan tolok ukur untuk keamanan AI pada tahun 2025, menyoroti pentingnya keamanan di samping metrik kinerja dalam mengevaluasi sistem AI.

Bagi pengguna yang ingin memanfaatkan asisten AI paling aman yang tersedia, Claude 3.7 Sonnet saat ini tampaknya menjadi pilihan terdepan, menggabungkan kemampuan canggih dengan ketahanan keamanan yang tak tertandingi. Seiring lanskap AI terus berkembang pesat, skor keamanan sempurna Claude 3.7 mewakili tonggak penting dalam upaya berkelanjutan untuk mengembangkan sistem AI yang kuat dan aman.

Berita Terkait

‌

‌
‌

‌

‌
‌

‌