我原本以為又一個 NotebookLM 類的產品,但當我了解到創辦人背後的故事後,覺得不能不分享!💡
Dia 是一個僅 1.6B 參數的高擬真開源 TTS 模型,功能如下:
1. 🗣️ 多角色對話生成:只需使用 [S1]、[S2] 等簡單標籤,即可以創造出自然流暢的多人對話。
2. 😄 非語言聲音合成:只要在文字中加入 (laughs)、(coughs) 等標記,即可生成笑聲、咳嗽等人性化聲音!
3. 🎯 語音複製:提供少量語音樣本,Dia 能複製特定說話者的聲音特徵。
4. 🎭 情感與語調控制:透過聲音提示調整輸出語音的情感和語調,完美表達各種情緒狀態。
真正令人嘆為觀止的是,這是由兩位毫無資金支持的大學生,憑空打造出了這款技術傑作!其中一位甚至還在軍中服役!🔥
他們從零開始,純靠自學 AI 加上深入鑽研 DeepMind 的《How to Scale》和 HuggingFace 的《Ultra-Scale Playbook》,再加上三個月的時間,硬是創造出能與 NotebookLM Podcast 等商業巨頭匹敵的語音合成系統。💪
只能說英雄出少年呀!🏆
模型:
https://huggingface.co/nari-labs/Dia-1.6B
程式碼:
https://github.com/nari-labs/dia/
官方網站:
https://yummy-fir-7a4.notion.site/dia
Dia 是一個僅 1.6B 參數的高擬真開源 TTS 模型,功能如下:
1. 🗣️ 多角色對話生成:只需使用 [S1]、[S2] 等簡單標籤,即可以創造出自然流暢的多人對話。
2. 😄 非語言聲音合成:只要在文字中加入 (laughs)、(coughs) 等標記,即可生成笑聲、咳嗽等人性化聲音!
3. 🎯 語音複製:提供少量語音樣本,Dia 能複製特定說話者的聲音特徵。
4. 🎭 情感與語調控制:透過聲音提示調整輸出語音的情感和語調,完美表達各種情緒狀態。
真正令人嘆為觀止的是,這是由兩位毫無資金支持的大學生,憑空打造出了這款技術傑作!其中一位甚至還在軍中服役!🔥
他們從零開始,純靠自學 AI 加上深入鑽研 DeepMind 的《How to Scale》和 HuggingFace 的《Ultra-Scale Playbook》,再加上三個月的時間,硬是創造出能與 NotebookLM Podcast 等商業巨頭匹敵的語音合成系統。💪
只能說英雄出少年呀!🏆
模型:
https://huggingface.co/nari-labs/Dia-1.6B
程式碼:
https://github.com/nari-labs/dia/
官方網站:
https://yummy-fir-7a4.notion.site/dia