Peluncuran terbaru Skyvern, sebuah alat otomasi browser open-source yang didukung oleh LLM dan computer vision, telah memicu diskusi tentang masa depan otomasi web, terutama setelah pengumuman Anthropic tentang kemampuan penggunaan komputer baru Claude. Respons komunitas menunjukkan adanya kegembiraan sekaligus kekhawatiran tentang perkembangan lanskap otomasi web berbasis AI.
Pertarungan Pendekatan: HTML vs Computer Vision
Sebuah perdebatan signifikan telah muncul mengenai dua pendekatan yang bersaing dalam otomasi web:
- Analisis Berbasis HTML
- Saat ini lebih efisien karena lebih sedikit memanggil LLM
- Memungkinkan analisis statis elemen halaman tanpa interaksi
- Kinerja lebih baik dengan teknologi saat ini
- Memberikan akses ke pilihan dropdown tanpa perlu mengklik
- Computer Vision Murni
- Pendekatan baru Anthropic menggunakan koordinat piksel
- Solusi yang lebih terukur untuk jangka panjang
- Berpotensi lebih tahan terhadap perubahan website
- Menghilangkan kebutuhan pemetaan elemen HTML
Implementasi Teknis dan Tantangan
Skyvern menggunakan arsitektur multi-agen, bergerak menjauh dari framework tradisional seperti LangChain dan AutoGPT. Sistem ini mencakup agen-agen khusus untuk:
- Analisis Elemen yang Dapat Diinteraksi
- Navigasi
- Ekstraksi Data
- Manajemen Kata Sandi
- Penanganan 2FA
- Auto-complete Dinamis
Sebuah tangkapan layar dari repositori GitHub untuk Skyvern, yang menampilkan proyek otomasi browser open-source-nya |
Aplikasi Dunia Nyata dan Kekhawatiran
Komunitas telah mengidentifikasi beberapa aplikasi praktis:
- Otomasi dan pengunduhan faktur
- Pengisian formulir di berbagai website
- Navigasi portal pemerintah
- Otomasi proses back-office
Namun, beberapa kekhawatiran telah muncul:
- Keamanan dan Privasi
- Penanganan data sensitif seperti kredensial login
- Potensi penyalahgunaan untuk spam atau tujuan jahat
- Keandalan dan Validasi
- Kebutuhan akan mekanisme validasi mandiri
- Penanganan perubahan dan pembaruan website
- Verifikasi proses dan deteksi kesalahan
- Keberlanjutan Bisnis
- Persaingan dari pemain besar seperti Anthropic, OpenAI, dan Google
- Viabilitas jangka panjang startup yang bergantung pada LLM pihak ketiga
Pertimbangan Biaya
Beberapa pengguna telah menunjukkan bahwa meskipun otomasi berbasis LLM sangat kuat, namun memerlukan biaya komputasi yang signifikan. Misalnya, Skyvern membebankan sekitar $0.10 per interaksi halaman, yang bisa menjadi mahal untuk operasi dengan volume tinggi.
Perkembangan Masa Depan
Tim di balik Skyvern telah mengakui tantangan-tantangan ini dan sedang mengerjakan:
- Integrasi dengan LLM open-source, terutama tertarik dengan Llama 3.2
- Fitur alur kerja untuk merangkai beberapa tugas
- Peningkatan mekanisme validasi mandiri
- Optimisasi antarmuka mobile
Peluncuran Skyvern merepresentasikan langkah signifikan dalam otomasi web berbasis AI, tetapi respons komunitas menunjukkan bahwa kita masih berada pada tahap awal dalam menentukan pendekatan yang paling efektif dan berkelanjutan untuk teknologi ini.