Kemampuan Riset Mendalam Onyx Mengesankan Pengguna dengan Pendekatan Pencarian Hibrid

BigGo Editorial Team
Kemampuan Riset Mendalam Onyx Mengesankan Pengguna dengan Pendekatan Pencarian Hibrid

Dalam lanskap pencarian perusahaan dan manajemen pengetahuan yang berkembang pesat, Onyx (sebelumnya dikenal sebagai Danswer) telah muncul sebagai solusi penting yang menghasilkan banyak perhatian di kalangan pengguna teknis. Platform ini menggabungkan AI generatif open-source dengan kemampuan pencarian perusahaan, memungkinkan organisasi untuk menghubungkan dokumen internal, aplikasi, dan orang-orang mereka ke dalam sistem pengetahuan terpadu.

Yang menarik tentang Onyx bukan hanya fitur-fiturnya, tetapi arsitektur teknis yang mendukung kemampuan pencariannya, yang telah menjadi fokus diskusi komunitas.

Repositori GitHub untuk Onyx, menampilkan basis kode dan struktur pengembangannya
Repositori GitHub untuk Onyx, menampilkan basis kode dan struktur pengembangannya

Pendekatan Pengindeksan Hibrid

Inti dari efektivitas Onyx adalah sistem pengindeksan dokumen hibrid yang menggabungkan frekuensi kata kunci dengan embedding vektor. Tidak seperti solusi yang mengandalkan kemampuan pencarian asli dari aplikasi individual, Onyx membangun indeks dokumen komprehensif di semua sumber yang terhubung. Pendekatan ini mengatasi beberapa tantangan utama dalam pencarian perusahaan, termasuk terminologi khusus tim, kueri bahasa alami, dan pencocokan non-eksak.

Indeks dokumen adalah indeks hibrid dari frekuensi kata kunci dan vektor. Komponen kata kunci mengatasi masalah seperti terminologi khusus tim dan komponen vektor memungkinkan kueri bahasa alami dan pencocokan non-eksak.

Arsitektur ini memungkinkan Onyx untuk memproses dokumen sebelum waktu kueri, menciptakan representasi yang ramah LLM yang memungkinkan inferensi cepat. Sistem ini juga menggabungkan sinyal tambahan seperti kebaruan dokumen, menerapkan pembobotan berbasis waktu untuk memprioritaskan informasi yang lebih up-to-date di semua sumber.

Riset Mendalam vs RAG Tradisional

Banyak anggota komunitas mempertanyakan bagaimana kemampuan riset mendalam Onyx berbeda dari sistem Retrieval-Augmented Generation (RAG) standar. Perbedaannya terletak pada bagaimana agen berinteraksi dengan infrastruktur pencarian yang mendasarinya. Sementara RAG berfungsi sebagai alat dasar, agen riset mendalam Onyx dapat melakukan beberapa pencarian, merefleksikan hasil sebelumnya, dan menghasilkan output chain-of-thought untuk mengeksplorasi informasi secara lebih menyeluruh.

Agen tersebut dapat memutuskan pertanyaan mana yang akan dieksplorasi lebih lanjut, mirip dengan bagaimana seorang peneliti manusia mungkin mengikuti alur penyelidikan yang berbeda ketika menyelidiki topik yang kompleks. Ini menciptakan proses penelitian yang lebih dinamis dan menyeluruh dibandingkan dengan implementasi RAG kueri tunggal.

Manajemen Izin

Tantangan signifikan untuk sistem pengetahuan perusahaan adalah menangani model izin yang kompleks di berbagai aplikasi. Onyx mengatasi ini dengan memetakan objek eksternal dan pengguna/grup terkait ke dalam representasi terpadu dalam platform.

Sistem ini menjalankan pekerjaan asinkron yang memeriksa pembaruan izin pada interval yang dapat dikonfigurasi, dengan default yang disesuaikan untuk setiap jenis sumber eksternal. Pendekatan ini mempertahankan keamanan sambil memungkinkan pencarian lintas aplikasi, selalu menggunakan model akses paling tidak permisif untuk mencegah paparan informasi yang tidak sah.

Kinerja dan Evaluasi

Dalam evaluasi internal menggunakan dataset yang terdiri dari konten perusahaan tipikal (pesan Slack, dokumentasi teknis, dll.), Onyx melaporkan hasil yang mengesankan. Dengan set uji 10.000 dokumen, sistem ini mencapai recall lebih dari 94% pada 4.000 token, mempertahankan recall lebih dari 90% bahkan ketika diperluas hingga ratusan ribu dokumen dengan noise tambahan.

Platform ini terutama dikembangkan dengan GPT-4o tetapi telah disesuaikan untuk bekerja secara efektif dengan model terbaru lainnya termasuk Claude 3.5, Gemini, dan Deepseek.

Fitur Utama Onyx

  • Pengindeksan dokumen hibrida (frekuensi kata kunci + vektor)
  • Lebih dari 40 konektor termasuk Google Drive, Confluence, Slack, Gmail, Salesforce
  • Kemampuan agen penelitian mendalam melampaui RAG standar
  • Pemetaan izin di berbagai aplikasi
  • Opsi penerapan: lokal, on-premise, atau cloud
  • Dua edisi: Community Edition (lisensi MIT) dan Enterprise Edition

Metrik Kinerja

  • Recall 94% pada 4K token dalam set uji 10K dokumen
  • Recall 90%+ dipertahankan dengan ratusan ribu dokumen
  • Kompatibel dengan berbagai backend LLM ( GPT-4o , Claude 3.5 , Gemini , Deepseek )

Item Roadmap

  • Metode pengambilan informasi baru (StructRAG, LightGraphRAG)
  • Pencarian yang dipersonalisasi
  • Pemahaman organisasi dan saran pakar
  • Pencarian kode
  • Dukungan SQL dan bahasa kueri terstruktur

Arah Masa Depan

Ke depannya, Onyx sedang mengeksplorasi beberapa metode pencarian informasi lanjutan, termasuk grafik pengetahuan berbasis LLM yang disesuaikan terinspirasi oleh pendekatan seperti LightGraphRAG. Fitur lain yang direncanakan termasuk pencarian yang dipersonalisasi, pemahaman organisasi dengan kemampuan saran ahli, pencarian kode, dan dukungan bahasa kueri terstruktur.

Untuk organisasi yang ingin meningkatkan penemuan dan pemanfaatan pengetahuan di seluruh ekosistem digital mereka, Onyx mewakili opsi open-source yang menarik yang dapat digunakan secara lokal, on-premise, atau di cloud. Edisi komunitas tersedia secara gratis di bawah lisensi MIT Expat, sementara edisi perusahaan dengan fitur tambahan yang ditargetkan untuk organisasi yang lebih besar juga tersedia.

Seiring evolusi pencarian perusahaan berbasis AI, pendekatan Onyx yang menggabungkan kemampuan riset mendalam dengan indeks dokumen terpadu menunjukkan bagaimana kesenjangan antara sumber informasi yang berbeda dapat dijembatani secara efektif, berpotensi mengurangi waktu dan upaya yang diperlukan bagi pekerja pengetahuan untuk menemukan dan mensintesis informasi.

Referensi: Open Source Gen-AI + Enterprise Search