Peluncuran terbaru NotebookLlama, yang berupaya meniru kemampuan pembuatan podcast milik Google NotebookLM, telah memicu diskusi signifikan di komunitas teknologi mengenai tantangan dalam menciptakan podcast yang dihasilkan AI dengan suara alami dan perkembangan terkini teknologi text-to-speech (TTS).
Dokumen ini menguraikan proses mengubah PDF menjadi podcast, mencerminkan alur kerja NotebookLlama dalam menghasilkan output berbasis AI |
Kesenjangan Realitas
Meskipun NotebookLlama menyediakan alur kerja empat langkah untuk mengubah PDF menjadi podcast, umpan balik komunitas menunjukkan bahwa kualitas outputnya masih jauh di bawah NotebookLM milik Google. Kesenjangan ini menyoroti kecanggihan implementasi Google, terutama dalam menangani aliran percakapan alami dan interaksi antar pembicara.
Wawasan Teknis NotebookLM
Beberapa pengembang dan pengguna mencatat bahwa keberhasilan NotebookLM terletak pada kemampuannya menciptakan percakapan yang terdengar alami di mana pembicara berinteraksi, menyela, dan melengkapi kalimat satu sama lain. Sementara beberapa menganggap interupsi ini bermasalah, yang lain berpendapat bahwa hal ini justru menambah keaslian percakapan.
Keterbatasan dan Tantangan Teknis
Kendala Mesin TTS
Pilihan mesin TTS di NotebookLlama ( parler-tts/parler-tts-mini-v1 dan bark/suno ) dikritik oleh komunitas karena dianggap kurang optimal. Alternatif open-source yang lebih canggih seperti XTTSv2 dan F5-TTS berpotensi memberikan hasil yang lebih baik, meskipun membutuhkan sumber daya komputasi yang signifikan.
Hambatan Biaya
Tantangan signifikan bagi pengembang independen yang mencoba meniru fungsi NotebookLM adalah tingginya biaya API TTS berkualitas. Seperti yang dicatat beberapa pengembang, bahkan API TTS OpenAI yang relatif terjangkau menjadikannya tidak layak secara ekonomi untuk menghasilkan konten audio berjam-jam secara gratis.
Persyaratan Implementasi
NotebookLlama membutuhkan sumber daya komputasi yang substansial:
- Server GPU atau penyedia API untuk model Llama 70B, 8B, dan 1B
- Memory agregat 140GB untuk inferensi model 70B dalam presisi bfloat-16
- Token akses Hugging Face untuk mengunduh model
Masalah Lisensi
Perlu dicatat bahwa meskipun ditampilkan sebagai open source, komunitas menunjukkan bahwa NotebookLlama tidak memiliki informasi lisensi yang jelas, yang berpotensi membatasi penggunaannya secara praktis di luar tujuan referensi.
Perbaikan Masa Depan
Proyek ini mengakui beberapa area yang berpotensi untuk ditingkatkan:
- Implementasi model ucapan yang lebih baik
- Pendekatan debat LLM vs LLM untuk pembuatan konten
- Pengujian dengan model 405B untuk penulisan transkrip
- Strategi prompting yang ditingkatkan
- Dukungan untuk berbagai format input (situs web, file audio, tautan YouTube)
Meskipun NotebookLlama mungkin tidak menyamai kecanggihan NotebookLM, proyek ini memberikan wawasan berharga tentang kompleksitas pembuatan podcast berbasis AI dan berfungsi sebagai titik awal bagi pengembang yang tertarik dengan teknologi ini.