Screenshot vs HTML: Komunitas Berdebat Tentang Metode Input Terbaik untuk Otomasi Web dengan LLM

BigGo Editorial Team
Screenshot vs HTML: Komunitas Berdebat Tentang Metode Input Terbaik untuk Otomasi Web dengan LLM

Menyusul peluncuran Browser-Use, sebuah alat otomasi web open-source yang memanfaatkan Large Language Models (LLM), komunitas pengembang terlibat dalam perdebatan menarik tentang pendekatan optimal untuk otomasi web berbasis LLM. Diskusi terutama berpusat pada pertimbangan antara pendekatan berbasis screenshot dan HTML untuk interaksi web.

Dilema Screenshot vs HTML

Sebagian besar diskusi komunitas berkisar pada efektivitas screenshot dibandingkan HTML sebagai input untuk LLM. Meskipun screenshot umumnya dianggap kurang akurat dan kurang kaya konteks dibandingkan HTML, namun menawarkan keuntungan praktis. Menurut umpan balik komunitas, screenshot sekitar 100 kali lebih murah untuk diproses dibandingkan file HTML+CSS lengkap. Gambar resolusi rendah 1280x1024 dengan GPT-4 membutuhkan biaya sekitar $0.0002, sementara gambar resolusi tinggi membutuhkan biaya sekitar $0.002, seperti yang dicatat oleh pembuat proyek.

Penggunaan Token dan Pertimbangan Biaya

Komunitas menyoroti hambatan kritis dalam pendekatan berbasis HTML: panjang konteks dan biaya API. Dengan skenario tipikal termasuk pesan sebelumnya, prompt sistem, teks yang diekstrak, dan elemen interaktif, pengembang sudah menghadapi sekitar 2.500 token (sekitar $0.01 dengan GPT-4). Ketika menyertakan seluruh file HTML dan CSS, biaya dan waktu inferensi bisa meningkat sepuluh kali lipat.

Wawasan Kinerja dan Keandalan

Sebuah temuan menarik dari diskusi datang dari mantan karyawan FAANG yang membagikan hasil penelitian internal. Menurut pengalaman mereka, meskipun kedua pendekatan membantu, screenshot menunjukkan kinerja sedikit lebih buruk dibandingkan HTML. Tingkat keberhasilan untuk menyelesaikan tugas berkisar antara 20-40%, dengan setiap penyelesaian tugas lengkap mewakili serangkaian persentase ini.

Masa Depan Otomasi Web

Komunitas secara aktif mendiskusikan masa depan interaksi web, terutama mempertimbangkan skenario di mana interaksi agen mungkin melebihi interaksi manusia dalam waktu setahun. Dua jalur potensial yang diperdebatkan:

  1. Website mengembangkan lebih banyak fungsi API khusus untuk agen
  2. Munculnya layanan pihak ketiga yang mengubah UI menjadi fungsi yang dapat dipanggil agen dengan kemampuan caching

Perspektif Alternatif CLI

Pendekatan alternatif menarik yang disarankan oleh anggota komunitas melibatkan fokus pada otomasi berbasis CLI daripada otomasi GUI. Argumennya berpusat pada interaksi CLI yang lebih langsung, efisien, dan dapat diandalkan, karena berurusan dengan output teks terstruktur daripada elemen visual. Pendekatan ini juga menawarkan kemampuan paralelisasi yang lebih baik, karena beberapa shell CLI dapat berjalan secara bersamaan, tidak seperti keterbatasan single-instance pada otomasi GUI.

Tantangan Implementasi Praktis

Komunitas telah mengidentifikasi beberapa tantangan praktis dalam mengimplementasikan otomasi web, termasuk:

  • Penanganan Captcha dan sistem verifikasi manusia
  • Keterbatasan ekstensi browser
  • Optimisasi penggunaan token
  • Kebutuhan akan kerangka pengujian dan evaluasi yang terstandarisasi

Pandangan ke Depan

Seiring berkembangnya bidang otomasi web dengan LLM, komunitas menekankan pentingnya mengembangkan kerangka pengujian yang kuat dan menciptakan sumber daya bersama untuk prompt engineering. Ada minat yang berkembang untuk membuat wiki atau repositori resep prompt yang dibuat komunitas untuk tindakan spesifik, mirip dengan pustaka komponen dalam pengembangan web.

Perdebatan dan pengembangan yang berkelanjutan di bidang ini menyoroti kompleksitas otomasi web dan berbagai pendekatan yang sedang dieksplorasi oleh komunitas pengembang. Meskipun belum ada konsensus yang jelas tentang pendekatan optimal, diskusi terus mendorong inovasi dan perbaikan dalam bidang yang berkembang pesat ini.