我原本以為又一個 NotebookLM 類的產品，但當我了解到創辦人背後的故事後，覺得不能不分享！💡Dia 是一個僅 1.6B 參數的高擬真開源 TTS 模型，功能如下：1. 🗣️ 多角色對話生成：只需使用 [S1]、[S2] 等簡單標籤，即可以創造出自然流暢的多人對話

我原本以為又一個 NotebookLM 類的產品，但當我了解到創辦人背後的故事後，覺得不能不分享！💡

Dia 是一個僅 1.6B 參數的高擬真開源 TTS 模型，功能如下：

1. 🗣️ 多角色對話生成：只需使用 [S1]、[S2] 等簡單標籤，即可以創造出自然流暢的多人對話。

2. 😄 非語言聲音合成：只要在文字中加入 (laughs)、(coughs) 等標記，即可生成笑聲、咳嗽等人性化聲音！

3. 🎯 語音複製：提供少量語音樣本，Dia 能複製特定說話者的聲音特徵。

4. 🎭 情感與語調控制：透過聲音提示調整輸出語音的情感和語調，完美表達各種情緒狀態。

真正令人嘆為觀止的是，這是由兩位毫無資金支持的大學生，憑空打造出了這款技術傑作！其中一位甚至還在軍中服役！🔥

他們從零開始，純靠自學 AI 加上深入鑽研 DeepMind 的《How to Scale》和 HuggingFace 的《Ultra-Scale Playbook》，再加上三個月的時間，硬是創造出能與 NotebookLM Podcast 等商業巨頭匹敵的語音合成系統。💪

只能說英雄出少年呀！🏆

模型：
https://huggingface.co/nari-labs/Dia-1.6B

程式碼：
https://github.com/nari-labs/dia/

官方網站：
https://yummy-fir-7a4.notion.site/dia

huggingface.co

nari-labs/Dia-1.6B · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.