Model Suara CSM Open Source dari Sesame Tidak Memenuhi Ekspektasi Demo

BigGo Editorial Team

Model Suara CSM Open Source dari Sesame Tidak Memenuhi Ekspektasi Demo

Sesame AI baru-baru ini merilis secara open source model Conversational Speech Model (CSM) mereka, namun perilisan tersebut telah memicu kekecewaan di seluruh komunitas pengembang. Meskipun perusahaan sebelumnya menampilkan demo suara interaktif yang mengesankan, banyak pengguna menemukan bahwa model 1B parameter yang dirilis jauh kurang mampu dibandingkan dengan yang didemonstrasikan.

Versi yang Dikurangi dari Teknologi yang Dijanjikan

CSM yang dirilis secara open source adalah model generasi suara yang dibangun di atas fondasi Llama dengan decoder audio yang lebih kecil yang menghasilkan kode audio Mimi. Meskipun secara teknis berfungsi, umpan balik komunitas menunjukkan keterbatasan substansial dibandingkan dengan demo Sesame yang lebih canggih. Beberapa komentator menggambarkan perilisan ini sebagai rug-pull, yang menunjukkan bahwa Sesame telah merilis versi teknologi mereka yang sengaja dibatasi.

Ternyata itu adalah rug-pull. Mereka merilis versi Sesame yang dibatasi (1B) secara open source, bukan yang mereka gunakan dalam demo sebenarnya.

Model ini membutuhkan GPU yang kompatibel dengan CUDA dan telah diuji pada CUDA 12.4 dan 12.6, dengan Python 3.10 yang direkomendasikan. Model ini dapat menghasilkan ucapan dari input teks dan bekerja paling baik ketika diberikan konteks percakapan, tetapi pengguna melaporkan kualitas dan kinerja jauh di bawah ekspektasi.

Persyaratan Model CSM

GPU yang kompatibel dengan CUDA
Diuji pada CUDA 12.4 dan 12.6
Python 3.10 direkomendasikan
Akses ke model Hugging Face:
- Llama-3.2-1B
- CSM-1B

Masalah yang Dilaporkan Komunitas

Jauh lebih lambat dibandingkan alternatif komersial
Kualitas output lebih rendah daripada yang ditunjukkan dalam demo Sesame
Bukan solusi lengkap (hanya generasi ucapan)
Membutuhkan komponen tambahan untuk membangun asisten suara yang lengkap
Beberapa implementasi mengalami jeda yang canggung dalam output ucapan

Masalah Kinerja dan Kegunaan

Pengguna yang mencoba mengimplementasikan model ini telah mengalami masalah signifikan. Proses generasi dilaporkan sangat lambat, dan kualitas output telah digambarkan sebagai tidak optimal oleh anggota komunitas yang telah mengujinya. Satu pengguna secara khusus merujuk pada masalah GitHub (#80) di mana keterbatasan ini sedang dibahas secara detail.

Beberapa pengembang telah membuat implementasi alternatif untuk meningkatkan aksesibilitas, seperti pustaka Python untuk pengguna Mac. Namun, bahkan implementasi ini dilaporkan memiliki keanehan seperti menyisipkan jeda canggung yang berlangsung beberapa detik ke dalam output.

Privasi dan Aplikasi Praktis

Di luar masalah kinerja, kekhawatiran privasi telah muncul mengenai solusi yang dihosting oleh Sesame. Satu pengguna mencatat bahwa kebijakan Sesame untuk merekam dan meninjau percakapan membuat layanan yang mereka hosting sama sekali tidak bisa digunakan, menyoroti potensi nilai alternatif open-source yang benar-benar mampu dan dapat dihosting sendiri.

Konsensus komunitas tampaknya adalah bahwa meskipun model suara open source mewakili peluang menarik untuk bersaing dengan solusi berpemilik, perilisan khusus ini gagal memenuhi janjinya. Seperti yang dicatat oleh seorang komentator, kesenjangan antara model dasar ini dan asisten suara yang canggih dan responsif seperti yang ada dalam demo Sesame menunjukkan bahwa AI suara membutuhkan pemikiran dalam hal sistem lengkap daripada komponen individual.

Kekecewaan seputar perilisan ini menunjukkan bahwa masih ada peluang signifikan bagi pengembang yang dapat memberikan model suara open-source yang benar-benar mampu menyamai kualitas alternatif berpemilik. Untuk saat ini, pencarian terus berlanjut untuk solusi suara terbuka yang benar-benar memenuhi janji interaksi suara yang alami dan responsif.

Referensi: Dokumentasi CSM (Conversational Speech Model)

Berita Terkait

‌

‌
‌

‌

‌
‌

‌