Ambisi kecerdasan buatan Google berkembang secara dramatis saat perusahaan mengungkapkan strategi jangka panjang untuk Gemini, memposisikannya untuk berkembang melampaui asisten AI sederhana menjadi apa yang mereka sebut sebagai model dunia. Ini merepresentasikan pergeseran signifikan dalam bagaimana Google memvisualisasikan peran AI dalam kehidupan sehari-hari kita, dengan kemampuan yang bisa secara fundamental mengubah cara kita berinteraksi dengan teknologi.
Ambisi AI Universal Google
CEO Google DeepMind, Demis Hassabis telah menguraikan visi ambisius untuk Gemini, bertujuan untuk mengubahnya menjadi AI universal yang mampu memahami dan mensimulasikan aspek-aspek dunia. Pendekatan model dunia ini akan memungkinkan Gemini untuk membuat rencana, membayangkan pengalaman baru, dan mengambil tindakan yang sesuai konteks atas nama pengguna di berbagai perangkat. Hassabis menarik paralel antara kemampuan ini dan kognisi manusia, menunjukkan bahwa Gemini sedang dikembangkan untuk berpikir dan bernalar dengan cara yang lebih menyerupai kecerdasan manusia. Perusahaan melaporkan telah mengamati tanda-tanda awal pemahaman dunia ini dalam interaksi Gemini dengan lingkungan alami.
Peningkatan Gemini 2.5 Flash dan Deep Think
Inti dari kemajuan AI Google adalah Gemini 2.5, yang menerima peningkatan signifikan. Model 2.5 Flash baru, yang digambarkan oleh Google sebagai versi paling kuat hingga saat ini, memberikan tolok ukur yang lebih baik untuk penalaran dan multimodalitas sambil meningkatkan efisiensi dalam pemrosesan kode dan penanganan konteks panjang. Peningkatan ini tersedia untuk semua pengguna Gemini melalui aplikasi, serta untuk pengguna perusahaan melalui Vertex AI dan pengembang melalui Google AI Studio.
Selain itu, Google memperkenalkan mode penalaran baru yang disebut Deep Think, dirancang untuk mendorong Gemini 2.5 Pro mempertimbangkan beberapa hipotesis sebelum memberikan respons. Fitur ini saat ini sedang menjalani pengujian ekstensif, termasuk evaluasi keamanan frontier dan konsultasi ahli, sebelum rilis yang lebih luas direncanakan. Kemampuan berpikir ini juga akan hadir di Live API, meningkatkan kemampuan Gemini untuk menangani tugas-tugas kompleks.
Pembaruan Utama Gemini 2.5:
- 2.5 Flash: Peningkatan penalaran, multimodalitas, pemrosesan kode, dan penanganan konteks panjang
- Deep Think: Mode penalaran baru untuk mempertimbangkan beberapa hipotesis (saat ini dalam tahap pengujian)
- Kontrol output audio native: Kustomisasi nada, aksen, dan gaya bicara
- Fitur audio eksperimental: Dialog Afektif dan Audio Proaktif
- Perlindungan keamanan yang ditingkatkan terhadap serangan injeksi prompt
![]() |
---|
Peningkatan Gemini AI ditampilkan pada Samsung Galaxy S25 Ultra, mencerminkan integrasi fitur-fitur canggih |
Integrasi Proyek: Mariner dan Astra
Strategi Google melibatkan integrasi dua proyek kunci ke dalam Gemini untuk mencapai visi model dunianya. Project Mariner, yang pertama kali diungkapkan pada Desember, telah berkembang untuk menangani hingga sepuluh tugas secara bersamaan. Agen-agennya dapat meneliti informasi, memesan acara, dan mengeksplorasi topik secara bersamaan, membawa kemampuan multitasking yang kuat yang Google lihat sebagai hal penting untuk evolusi Gemini.
Project Astra, yang diumumkan untuk integrasi dengan Gemini pada Maret, memberikan kontribusi pemahaman video, berbagi layar, dan fungsi memori. Google telah memasukkan umpan balik dari implementasi Astra di Gemini Live untuk meningkatkan pengalaman di Gemini Live, Search, dan Live API. Kombinasi multitasking Mariner dan pemahaman visual Astra merepresentasikan langkah signifikan menuju tujuan AI universal Google.
Integrasi Proyek:
- Proyek Mariner: Kemampuan multitasking (menangani hingga 10 tugas secara bersamaan)
- Proyek Astra: Pemahaman video, berbagi layar, dan fungsi memori
- Dukungan MCP (Model Context Protocol) untuk integrasi alat open-source yang lebih mudah
Peningkatan Fitur Audio dan Keamanan
Gemini 2.5 juga mendapatkan kontrol output audio native, memungkinkan pengembang untuk menyesuaikan cara AI berbicara dengan mengubah nada, aksen, dan gaya bicaranya. Pembaruan ini membawa fitur eksperimental termasuk Affective Dialogue, yang memungkinkan Gemini mendeteksi emosi dalam suara pengguna dan merespons dengan tepat, dan Proactive Audio, yang membantu Gemini mengabaikan suara latar belakang sambil menunggu waktu yang tepat untuk merespons.
Dalam hal keamanan, Google memperkuat Gemini 2.5 dengan perlindungan yang ditingkatkan terhadap instruksi yang disematkan secara berbahaya dan serangan injeksi prompt tidak langsung, mengatasi kekhawatiran yang berkembang tentang kerentanan AI.
Alat dan Dukungan Pengembang
Menyadari pentingnya ekosistem pengembang, Google menyediakan ringkasan informatif untuk membantu pengembang memahami proses berpikir dan tindakan Gemini, memfasilitasi debugging yang lebih mudah. Fitur kontrol biaya melalui anggaran berpikir akan hadir di Gemini 2.5 Pro dalam beberapa minggu mendatang, bersama dengan model yang tersedia secara umum.
Selanjutnya, Gemini 2.5 menambahkan dukungan Model Context Protocol (MCP), menyederhanakan integrasi alat open-source ke dalam proyek Gemini. Google telah mengindikasikan bahwa mereka sedang mengeksplorasi server MCP dan alat-alat tambahan yang dihosting untuk lebih mendukung komunitas pengembang.
Saat Google terus memajukan kemampuan Gemini, perusahaan tampaknya menyeimbangkan inovasi cepat dengan pengujian hati-hati dan evaluasi keamanan, terutama untuk fitur yang lebih canggih seperti Deep Think. Pendekatan ini mencerminkan taruhan tinggi dalam perlombaan AI, di mana Google bekerja untuk mempertahankan keunggulan kompetitifnya sambil mengatasi kekhawatiran tentang keamanan dan tanggung jawab AI.