Model Qwen2.5-VL Memimpin Benchmark OCR Open Source, Mengejutkan Komunitas dengan Kemampuan Bounding Box

BigGo Editorial Team
Model Qwen2.5-VL Memimpin Benchmark OCR Open Source, Mengejutkan Komunitas dengan Kemampuan Bounding Box

Benchmark OCR OmniAl yang baru dirilis telah memicu diskusi signifikan di komunitas AI, dengan model Qwen2.5-VL dari Alibaba muncul sebagai pemain unggulan dalam tugas pengenalan karakter optik. Benchmark ini mengevaluasi baik penyedia OCR tradisional maupun model bahasa multimodal pada kemampuan mereka untuk mengekstrak teks dan data terstruktur dari dokumen.

Model Qwen2.5-VL Menunjukkan Performa Mengesankan

Model Qwen2.5-VL, khususnya varian 32B dan 72B, telah menunjukkan kemampuan OCR yang luar biasa menurut umpan balik komunitas. Model-model ini tidak hanya unggul dalam ekstraksi teks tetapi juga menawarkan fungsionalitas bounding box—fitur yang secara tradisional dikaitkan dengan alat OCR khusus daripada model multimodal untuk tujuan umum. Kemampuan ini memungkinkan model untuk mengidentifikasi lokasi teks secara tepat dalam gambar, yang sangat penting untuk alur kerja verifikasi dan koreksi.

Sebenarnya qwen 2.5 dilatih untuk menyediakan bounding box

Fungsionalitas bounding box ini merupakan kemajuan signifikan, karena mengatasi salah satu keterbatasan utama yang telah mencegah adopsi solusi OCR berbasis LLM secara lebih luas di lingkungan produksi. Untuk aplikasi yang memerlukan verifikasi manusia, kemampuan untuk dengan cepat menemukan teks dalam dokumen asli secara dramatis meningkatkan efisiensi alur kerja.

Diagram alir yang mengilustrasikan metodologi pemrosesan teks dan peran model pembelajaran mesin dalam evaluasi dokumen
Diagram alir yang mengilustrasikan metodologi pemrosesan teks dan peran model pembelajaran mesin dalam evaluasi dokumen

Pertimbangan Biaya dan Performa

Menurut data benchmark yang dibagikan dalam komentar, model-model tersebut menunjukkan trade-off biaya-performa yang menarik. Model Qwen 32B memproses dokumen dengan biaya sekitar 0,33 Dolar AS per 1000 halaman dengan latensi 53 detik per halaman, sementara Qwen 72B yang lebih besar membutuhkan biaya sekitar 0,71 Dolar AS per 1000 halaman dengan latensi serupa. Sebagai perbandingan, Llama 90B menunjukkan biaya yang jauh lebih tinggi yaitu 8,50 Dolar AS per 1000 halaman.

Komunitas mencatat bahwa harga dapat bervariasi secara substansial tergantung pada penyedia hosting, membuat perbandingan biaya terstandarisasi menjadi tantangan. Model seperti Mistral menawarkan pemrosesan lebih cepat (3 detik per halaman) dengan tarif kompetitif (1,00 Dolar AS per 1000 halaman), menyoroti beragam opsi yang tersedia untuk pengembang.

Metrik Kinerja Model

Model Biaya (per 1000 halaman) Latensi (per halaman)
Qwen 32B $0,33 53 detik
Qwen 72B $0,71 51 detik
Llama 90B $8,50 44 detik
Llama 11B $0,21 8 detik
Gemma 27B $0,25 22 detik
Mistral $1,00 3 detik

Catatan: Biaya dapat bervariasi tergantung pada penyedia hosting

Persaingan yang Berkembang dalam AI Multimodal

Anggota komunitas telah mengungkapkan keterkejutan mereka tentang seberapa cepat model Qwen berkembang dalam tugas-tugas terkait visi. Beberapa pengguna melaporkan bahwa model Qwen2.5-VL terbaru tidak hanya meningkatkan pendahulunya tetapi juga menunjukkan stabilitas yang lebih besar dan kemudahan fine-tuning. Beberapa pengguna bahkan menyarankan bahwa model Qwen 2.5 VL 72B kini bersaing dengan Gemini dari Google untuk tugas visi umum, menempatkannya di posisi kedua setelah GPT-4o dari OpenAI.

Yang membuat hal ini sangat patut dicatat adalah bahwa model-model ini dapat dijalankan secara lokal, menyediakan alternatif open-source untuk solusi berpemilik. Opsi penerapan lokal ini sangat berharga untuk aplikasi dengan persyaratan privasi atau yang memerlukan pemrosesan dokumen sensitif tanpa mengirim data ke API eksternal.

Aplikasi Praktis dan Keterbatasan

Pengguna telah melaporkan keberhasilan dengan model-model ini dalam berbagai aplikasi praktis, termasuk mengekstrak teks dari kartu permainan papan untuk konversi text-to-speech dan memproses dokumen bisnis. Namun, diskusi komunitas juga menyoroti bahwa untuk aplikasi mission-critical yang membutuhkan akurasi 95%+, verifikasi manusia tetap diperlukan.

Benchmark itu sendiri melampaui evaluasi OCR sederhana, berfokus pada kemampuan model untuk mengekstrak data JSON terstruktur dari dokumen—tugas yang menggabungkan kemampuan OCR dengan pemahaman semantik. Ini mencerminkan tren yang berkembang menuju sistem pemrosesan dokumen end-to-end yang dapat langsung mengekstrak informasi terstruktur daripada sekadar mentranskripsikan teks.

Seiring model open-source ini terus meningkat, mereka semakin menantang solusi berpemilik dalam tugas pemrosesan dokumen yang dulunya didominasi oleh penyedia OCR khusus. Bagi pengembang dan bisnis yang bekerja dengan otomatisasi dokumen, kemajuan pesat model-model ini menawarkan opsi baru yang menjanjikan untuk membangun pipeline pemrosesan dokumen yang lebih mampu dan hemat biaya.

Referensi: OmniAl OCR Benchmark

Perbandingan antara dokumen sumber dan ground truth-nya, menyoroti evaluasi akurasi OCR dalam pemrosesan dokumen
Perbandingan antara dokumen sumber dan ground truth-nya, menyoroti evaluasi akurasi OCR dalam pemrosesan dokumen