Dia 1.6B: Model Text-to-Speech Open-Source Mengesankan dengan Generasi Dialog Alami dan Kontrol Suara

BigGo Editorial Team
Dia 1.6B: Model Text-to-Speech Open-Source Mengesankan dengan Generasi Dialog Alami dan Kontrol Suara

Nari Labs telah meluncurkan Dia-1.6B, sebuah model text-to-speech open-source yang menghasilkan kehebohan signifikan di komunitas AI karena kemampuannya menciptakan dialog yang terdengar luar biasa alami. Yang membuat peluncuran ini sangat patut diperhatikan adalah bahwa model ini dikembangkan oleh tim kecil yang hanya terdiri dari dua insinyur selama tiga bulan, namun memberikan kualitas yang menyaingi produk dari perusahaan-perusahaan yang jauh lebih besar.

Repositori GitHub untuk model text-to-speech Dia open-source yang dikembangkan oleh Nari Labs
Repositori GitHub untuk model text-to-speech Dia open-source yang dikembangkan oleh Nari Labs

Generasi Dialog Alami

Tidak seperti model text-to-speech (TTS) tradisional yang menghasilkan baris-baris setiap pembicara secara terpisah dan kemudian menggabungkannya, Dia menghasilkan seluruh percakapan dalam satu proses. Pendekatan ini menghasilkan dialog yang terdengar lebih alami dengan pengaturan tempo, tumpang tindih, dan kontinuitas emosional yang tepat. Anggota komunitas sangat terkesan dengan kemampuan model ini untuk menghasilkan elemen non-verbal seperti tawa, batuk, dan berdeham.

Ini sangat mengesankan; kita semakin mendekati impian saya: kemampuan untuk menghasilkan buku audio yang tepat dari EPUB. Bukan hanya suara tunggal yang robotik untuk semuanya, tetapi suara yang berbeda dan konsisten untuk setiap protagonis.

Kualitas output Dia telah mengejutkan banyak pengguna, dengan beberapa berkomentar bahwa contoh-contohnya terdengar luar biasa mirip manusia. Beberapa mencatat bahwa contoh demo memiliki kualitas yang hampir teatrikal, dengan satu pengguna membandingkan gayanya dengan karakter dari acara TV The Office. Pengamatan ini membuat komentator lain menemukan bahwa salah satu contoh demo memang didasarkan pada adegan dari acara tersebut.

Kontrol Suara dan Emosi

Fitur unggulan Dia adalah dukungannya untuk prompt audio, memungkinkan pengguna untuk mengkondisikan output pada suara atau nada emosional tertentu. Dengan menyediakan klip audio sampel, pengguna dapat membuat model terus menghasilkan ucapan dalam gaya yang sama. Kemampuan ini membuka kemungkinan untuk suara karakter yang konsisten dalam buku audio, podcast, dan aplikasi kreatif lainnya.

Beberapa pengguna melaporkan hasil yang beragam dengan fitur kontrol emosi, dengan satu pengguna menyebutkan artefak tak terduga seperti musik latar belakang muncul ketika mencoba menentukan nada bahagia. Terlepas dari keunikan sesekali ini, kemampuan keseluruhan untuk mempertahankan karakteristik suara yang konsisten sepanjang dialog tampaknya berfungsi dengan baik.

Persyaratan Perangkat Keras dan Aksesibilitas

Versi lengkap Dia saat ini membutuhkan sekitar 10GB VRAM untuk dijalankan, yang membuatnya berada di luar jangkauan pengguna dengan perangkat keras yang lebih sederhana. Namun, para pengembang telah mengindikasikan bahwa mereka berencana untuk merilis versi yang dikuantisasi di masa depan yang akan mengurangi persyaratan ini, mirip dengan bagaimana model Bark dari Suno berkembang dari membutuhkan 16GB menjadi berjalan hanya dengan 4GB VRAM.

Anggota komunitas telah mulai mengadaptasi model untuk konfigurasi perangkat keras yang berbeda, dengan satu pengguna berhasil menjalankannya pada MacBook Pro M2 Pro. Pengguna lain mengonfirmasi bahwa model ini juga berfungsi pada chip M4. Para pengembang menyebutkan bahwa meskipun dukungan GPU saat ini diperlukan, dukungan CPU akan segera ditambahkan.

Spesifikasi Teknis Dia-1.6B

  • Ukuran Model: 1,6 miliar parameter
  • Persyaratan Perangkat Keras: ~10GB VRAM (GPU diperlukan)
  • Platform yang Telah Diuji:
    • GPU NVIDIA dengan CUDA 12.6
    • MacBook Pro M2 Pro (melalui adaptasi komunitas)
    • Apple Silicon M4
  • Kecepatan Generasi: ~40 token/detik pada GPU A4000 (86 token = 1 detik audio)
  • Fitur Utama:
    • Generasi dialog langsung (bukan suara tunggal yang disambung)
    • Pengondisian prompt audio untuk kontrol suara/emosi
    • Komunikasi non-verbal (tertawa, batuk, dll.)
    • Dukungan untuk beberapa pembicara

Timeline Pengembangan

  • Dibuat oleh tim yang terdiri dari 2 insinyur (1 penuh waktu, 1 paruh waktu)
  • Dikembangkan selama kurang lebih 3 bulan
  • Tidak memiliki pengalaman sebelumnya dengan model ucapan sebelum memulai

Kontribusi Open Source dan Pengembangan Masa Depan

Sebagai proyek open-source yang dirilis di bawah Lisensi Apache 2.0, Dia telah mulai menerima kontribusi komunitas. Pengguna telah mengirimkan pull request untuk meningkatkan kompatibilitas dengan platform perangkat keras yang berbeda, dan beberapa telah mendiskusikan strategi implementasi Docker.

Para pengembang telah menguraikan beberapa area untuk perbaikan di masa depan, termasuk dukungan Docker, optimasi kecepatan inferensi, dan kuantisasi untuk efisiensi memori. Mereka juga menyatakan minat dalam memperluas dukungan bahasa di luar bahasa Inggris, yang telah diminta oleh beberapa anggota komunitas.

Peluncuran Dia merepresentasikan langkah signifikan lainnya dalam demokratisasi akses ke teknologi sintesis ucapan AI yang canggih. Dengan membuat model parameter 1,6B mereka tersedia secara terbuka, Nari Labs telah menyediakan alat yang kuat bagi para peneliti dan pengembang yang dapat menghasilkan dialog manusia yang meyakinkan tanpa memerlukan sumber daya dari perusahaan teknologi besar.

Referensi: nari-labs/dia