Sesame AI baru-baru ini merilis secara open source model Conversational Speech Model (CSM) mereka, namun perilisan tersebut telah memicu kekecewaan di seluruh komunitas pengembang. Meskipun perusahaan sebelumnya menampilkan demo suara interaktif yang mengesankan, banyak pengguna menemukan bahwa model 1B parameter yang dirilis jauh kurang mampu dibandingkan dengan yang didemonstrasikan.
Versi yang Dikurangi dari Teknologi yang Dijanjikan
CSM yang dirilis secara open source adalah model generasi suara yang dibangun di atas fondasi Llama dengan decoder audio yang lebih kecil yang menghasilkan kode audio Mimi. Meskipun secara teknis berfungsi, umpan balik komunitas menunjukkan keterbatasan substansial dibandingkan dengan demo Sesame yang lebih canggih. Beberapa komentator menggambarkan perilisan ini sebagai rug-pull, yang menunjukkan bahwa Sesame telah merilis versi teknologi mereka yang sengaja dibatasi.
Ternyata itu adalah rug-pull. Mereka merilis versi Sesame yang dibatasi (1B) secara open source, bukan yang mereka gunakan dalam demo sebenarnya.
Model ini membutuhkan GPU yang kompatibel dengan CUDA dan telah diuji pada CUDA 12.4 dan 12.6, dengan Python 3.10 yang direkomendasikan. Model ini dapat menghasilkan ucapan dari input teks dan bekerja paling baik ketika diberikan konteks percakapan, tetapi pengguna melaporkan kualitas dan kinerja jauh di bawah ekspektasi.
Persyaratan Model CSM
- GPU yang kompatibel dengan CUDA
- Diuji pada CUDA 12.4 dan 12.6
- Python 3.10 direkomendasikan
- Akses ke model Hugging Face:
- Llama-3.2-1B
- CSM-1B
Masalah yang Dilaporkan Komunitas
- Jauh lebih lambat dibandingkan alternatif komersial
- Kualitas output lebih rendah daripada yang ditunjukkan dalam demo Sesame
- Bukan solusi lengkap (hanya generasi ucapan)
- Membutuhkan komponen tambahan untuk membangun asisten suara yang lengkap
- Beberapa implementasi mengalami jeda yang canggung dalam output ucapan
Masalah Kinerja dan Kegunaan
Pengguna yang mencoba mengimplementasikan model ini telah mengalami masalah signifikan. Proses generasi dilaporkan sangat lambat, dan kualitas output telah digambarkan sebagai tidak optimal oleh anggota komunitas yang telah mengujinya. Satu pengguna secara khusus merujuk pada masalah GitHub (#80) di mana keterbatasan ini sedang dibahas secara detail.
Beberapa pengembang telah membuat implementasi alternatif untuk meningkatkan aksesibilitas, seperti pustaka Python untuk pengguna Mac. Namun, bahkan implementasi ini dilaporkan memiliki keanehan seperti menyisipkan jeda canggung yang berlangsung beberapa detik ke dalam output.
Privasi dan Aplikasi Praktis
Di luar masalah kinerja, kekhawatiran privasi telah muncul mengenai solusi yang dihosting oleh Sesame. Satu pengguna mencatat bahwa kebijakan Sesame untuk merekam dan meninjau percakapan membuat layanan yang mereka hosting sama sekali tidak bisa digunakan, menyoroti potensi nilai alternatif open-source yang benar-benar mampu dan dapat dihosting sendiri.
Konsensus komunitas tampaknya adalah bahwa meskipun model suara open source mewakili peluang menarik untuk bersaing dengan solusi berpemilik, perilisan khusus ini gagal memenuhi janjinya. Seperti yang dicatat oleh seorang komentator, kesenjangan antara model dasar ini dan asisten suara yang canggih dan responsif seperti yang ada dalam demo Sesame menunjukkan bahwa AI suara membutuhkan pemikiran dalam hal sistem lengkap daripada komponen individual.
Kekecewaan seputar perilisan ini menunjukkan bahwa masih ada peluang signifikan bagi pengembang yang dapat memberikan model suara open-source yang benar-benar mampu menyamai kualitas alternatif berpemilik. Untuk saat ini, pencarian terus berlanjut untuk solusi suara terbuka yang benar-benar memenuhi janji interaksi suara yang alami dan responsif.