Kerangka Kerja Pengujian AI Magnitude Memicu Perdebatan tentang Determinisme vs. Adaptabilitas

BigGo Editorial Team
Kerangka Kerja Pengujian AI Magnitude Memicu Perdebatan tentang Determinisme vs. Adaptabilitas

Munculnya alat pengujian berbasis AI sedang mengubah cara pengembang mendekati jaminan kualitas untuk aplikasi web. Magnitude, sebuah kerangka kerja pengujian open-source yang memanfaatkan agen AI visual, baru-baru ini memicu diskusi signifikan di antara pengembang tentang keseimbangan antara pengujian deterministik dan adaptabilitas AI.

Arsitektur Dua Model: Perencanaan vs. Eksekusi

Inti dari pendekatan Magnitude adalah pemisahan yang jelas antara fungsi perencanaan dan eksekusi. Kerangka kerja ini menggunakan dua model AI berbeda: perencana (biasanya model yang lebih besar dan lebih mampu seperti Gemini 2.5 Pro) yang mengembangkan strategi pengujian secara keseluruhan, dan eksekutor (Moondream, model yang lebih kecil dengan 2B parameter) yang menangani interaksi UI yang sebenarnya dengan presisi tingkat piksel.

Arsitektur ini mengatasi tantangan mendasar dalam pengujian berbasis AI: bagaimana membuat pengujian yang adaptif sekaligus konsisten. Seperti yang dijelaskan oleh tim Magnitude dalam diskusi komunitas, perencana membangun rencana umum yang kemudian dijalankan oleh eksekutor. Inovasi utamanya adalah bahwa rencana ini dapat disimpan dan dijalankan ulang hanya menggunakan eksekutor untuk pengujian berikutnya, membuat pengujian berulang menjadi lebih cepat, lebih murah, dan lebih konsisten.

Di sinilah hal menarik terjadi, kita dapat menyimpan rencana eksekusi yang dibuat oleh model besar dan menjalankannya HANYA dengan Moondream jika rencananya cukup spesifik. Kemudian beralih kembali ke model besar jika beberapa jalur tindakan memerlukan penyesuaian.

Ketika terjadi perubahan antarmuka yang mungkin merusak pengujian tradisional, sistem dapat secara dinamis kembali ke model perencana untuk menyesuaikan strategi pengujian, memberikan perpaduan konsistensi dan adaptabilitas yang sulit dicapai oleh kerangka kerja pengujian tradisional.

Arsitektur Pengujian Dua-Model Magnitude

  • Model Perencana

    • Direkomendasikan: Gemini 2.5 Pro
    • Alternatif: Model dari Anthropic, OpenAI, AWS Bedrock, dll.
    • Fungsi: Mengembangkan strategi pengujian secara keseluruhan dan beradaptasi dengan perubahan antarmuka
  • Model Pelaksana

    • Saat ini hanya mendukung Moondream (2B parameter)
    • Fungsi: Menangani interaksi UI dengan presisi tingkat piksel
    • Manfaat: Eksekusi yang cepat, murah, dan konsisten
    • Harga: Moondream menawarkan 5.000 permintaan gratis per hari (versi cloud)

Fitur Utama

  • Pembuatan kasus uji dalam bahasa alami
  • Penyimpanan rencana untuk eksekusi pengujian yang konsisten
  • Fallback dinamis ke perencana ketika antarmuka berubah
  • Integrasi CI/CD mirip dengan Playwright
  • Tersedia opsi self-hosting untuk Moondream

Perdebatan Determinisme

Salah satu kekhawatiran paling menonjol yang muncul dalam diskusi komunitas berpusat pada determinisme pengujian. Pengujian otomatis tradisional dihargai karena konsistensi dan prediktabilitasnya, sementara pendekatan berbasis AI secara inheren memperkenalkan beberapa tingkat non-determinisme.

Pengembang Magnitude telah mengatasi kekhawatiran ini dengan menjelaskan bahwa arsitektur mereka dirancang khusus dengan mempertimbangkan determinisme. Alih-alih menghasilkan pengujian berbasis kode yang rapuh yang rusak ketika antarmuka berubah, Magnitude menyimpan rencana tindakan web yang dijelaskan dalam bahasa alami. Misalnya, tindakan pengetikan yang disimpan mungkin mencakup deskripsi bahasa alami dari target dan konten yang akan diketik, memungkinkan model eksekutor untuk menemukan target dengan andal tanpa mengandalkan selektor DOM.

Pendekatan ini berarti bahwa selama antarmuka tetap sebagian besar tidak berubah, pengujian dapat berjalan secara konsisten menggunakan rencana yang disimpan. Ketika perubahan antarmuka yang signifikan terjadi, sistem secara cerdas kembali ke model perencana untuk menyesuaikan pengujian, menciptakan rencana baru yang disimpan yang dapat dijalankan secara konsisten hingga perubahan besar berikutnya.

Di Luar Pengujian Tradisional: Aksesibilitas dan Kegunaan

Sebuah topik menarik dalam diskusi komunitas mengeksplorasi bagaimana pengujian berbasis AI mungkin meluas melampaui pengujian fungsional tradisional ke evaluasi aksesibilitas dan kegunaan. Seorang komentator menunjukkan bahwa mengandalkan pengujian visual saja mungkin membebaskan pengembang dari kekhawatiran tentang aksesibilitas.

Sebagai tanggapan, tim Magnitude mengakui keterbatasan ini dan menyatakan ketertarikan untuk mengembangkan pengujian aksesibilitas paralel yang akan berjalan bersama dengan pengujian visual tetapi dibatasi untuk hanya menggunakan pohon aksesibilitas. Pendekatan ini dapat membantu pengembang mengidentifikasi masalah aksesibilitas dengan lebih efektif dengan mensimulasikan berbagai jenis disabilitas atau kendala.

Beberapa anggota komunitas juga menyarankan bahwa sifat non-deterministik dari pengujian AI sebenarnya dapat dimanfaatkan sebagai keuntungan untuk pengujian kegunaan. Dengan menganalisis tingkat keberhasilan di berbagai pengujian, pengembang mungkin mendapatkan wawasan tentang bagaimana agen AI dan manusia berinteraksi dengan antarmuka mereka, berpotensi mengungkapkan masalah kegunaan yang tidak akan terdeteksi oleh pengujian deterministik.

Pertimbangan Biaya dan Kinerja

Komunitas telah menunjukkan minat khusus pada bagaimana Magnitude menyeimbangkan biaya dan kinerja. Pendekatan dua model mengatasi kekhawatiran ini secara langsung: model perencana yang mahal dan kuat digunakan dengan hemat untuk mengembangkan dan menyesuaikan strategi pengujian, sementara model eksekutor yang lebih kecil dan lebih cepat menangani sebagian besar eksekusi pengujian.

Pendekatan ini secara signifikan mengurangi biaya dibandingkan dengan solusi yang mengandalkan secara eksklusif model besar seperti yang digunakan dalam Computer Use dari OpenAI atau Claude dari Anthropic. Moondream, yang hanya merupakan model 2B parameter, lebih cepat dan lebih murah untuk dijalankan, dengan opsi self-hosting tersedia untuk tim dengan persyaratan penerapan tertentu.

Seiring pengujian aplikasi web terus berkembang, kerangka kerja seperti Magnitude mewakili jalan tengah yang menarik antara pengujian otomatis tradisional dan pendekatan yang sepenuhnya digerakkan oleh AI. Dengan cerdas menggabungkan kekuatan model AI yang berbeda dan menyimpan rencana eksekusi, mereka menawarkan gambaran tentang bagaimana pengujian mungkin berkembang menjadi lebih adaptif dan lebih efisien di masa depan.

Referensi: Magnitude: The open source, Al-native testing framework for web apps