MataBerita – Google meluncurkan pratinjau model Kecerdasan Buatan (AI) terbarunya, Gemini 2.5 Computer Use, yang dirancang untuk berinteraksi dan menjelajahi web melalui browser, persis seperti yang dilakukan oleh manusia.
Model ini memungkinkan agen AI menjalankan tugas di dalam antarmuka yang dibuat untuk orang, bukan sekadar robot.
Model Gemini 2.5 Computer Use memanfaatkan “pemahaman visual dan kemampuan penalaran” untuk menganalisis permintaan pengguna dan melaksanakan tugas yang kompleks, seperti mengisi dan mengirimkan formulir online.
Baca Juga: Gemini Hadir di Google TV, Bagikan Pengalaman Nonton Lebih Canggih Ini Caranya!
Fungsionalitas dan Keunggulan Model
Fungsi utama dari model ini adalah memfasilitasi pengujian antarmuka pengguna (UI) atau menavigasi platform yang tidak menyediakan API atau koneksi langsung untuk bot.
Versi awal model ini telah digunakan dalam fitur agentic pada AI Mode dan Project Mariner, sebuah prototipe riset yang memungkinkan agen AI menjalankan tugas mandiri di browser, seperti menambahkan item ke keranjang belanja berdasarkan daftar belanjaan.
Kehadiran Gemini 2.5 Computer Use ini melanjutkan tren industri AI yang berfokus pada kemampuan agentic.
Sebelumnya, OpenAI telah mengungkapkan fitur ChatGPT Agent yang dapat menyelesaikan tugas kompleks atas nama pengguna, sementara Anthropic merilis model Claude dengan kemampuan “penggunaan komputer” tahun lalu.
Google mengklaim model baru ini “mengungguli alternatif terkemuka dalam berbagai benchmark web dan mobile.”
Batasan dan Ketersediaan
Berbeda dengan beberapa alat computer use kompetitornya (seperti ChatGPT Agent dan alat Anthropic) yang memiliki akses ke seluruh lingkungan komputer, model Gemini baru ini saat ini hanya memiliki akses ke browser.
Baca Juga: AMD dan OpenAI Umumkan Kemitraan Strategis, Pertanda Perang Infrastruktur AI?
Google menjelaskan bahwa hal ini menunjukkan model tersebut “belum dioptimalkan untuk kontrol tingkat OS desktop.”
Saat ini, Gemini 2.5 Computer Use mendukung 13 tindakan, termasuk membuka browser, mengetik teks, serta drag and drop elemen. Model ini tersedia untuk pengembang melalui Google AI Studio dan Vertex AI.
Demonstrasi publik juga dapat dilihat di Browserbase, di mana Anda bisa menyaksikan AI ini menyelesaikan tugas seperti “Mainkan game 2048” atau “Jelajahi Hacker News untuk debat yang sedang tren.”