如果用 AI 做有声阅读，有没有搞头？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 426 天前的主题，其中的信息可能已经有所发展或是发生改变。

就是根据文本内容，分角色，分场景，分感情的进行朗读，类似真人朗读的那种，这种目前 AI 的技术能够支持吗？？？有没有搞头？？

朗读

技术

32 条回复 • 2024-12-14 11:13:03 +08:00

z7356995

2024 年 12 月 13 日

目的是什么，再有感情也比不过电影

julyclyde

2024 年 12 月 13 日

不就 TTS 么，咋就 AI 了？

SantinoSong

2024 年 12 月 13 日

晚了, 豆包已经在做了

Shawn5

2024 年 12 月 13 日

@z7356995 就是有声小说，提高用户体验，现在的有声小说都是平白直叙的

Shawn5

2024 年 12 月 13 日

@julyclyde 的确需要用到 TTS ，但是 TTS ，貌似没感情啊，读出来的小说，太直白了，没有波动，现在还好，能分出男女了，以前连男女都不分

Shawn5

2024 年 12 月 13 日

@SantinoSong 啊，这样的吗，我去看看，哈哈哈哈，之前有搜到，火山语音在做，但是搜了下，貌似没有这个应用，不知道是不是合并到番茄里面进去了

odirus

2024 年 12 月 13 日

这块字节做得很好了吧，有声小说重点还是落在 “小说” 上面，内容吸引人才行

chairuosen

2024 年 12 月 13 日

最好是外挂，一个录屏软件 OCR+TTS ，可以不依赖文字内容的版权

love060701

2024 年 12 月 13 日

技术是支持的，看我用 GPT-4o 实现的效果

1 、模仿老友记的珍妮丝和武林外传的佟掌柜： https://x.com/Gorden_Sun/status/1838895315514204375

2 、唱生日歌： https://x.com/Gorden_Sun/status/1839170329262047682

3 、说情话： https://x.com/Gorden_Sun/status/1839252597687071212

poplar50

2024 年 12 月 13 日 via Android

@Shawn5 试过番茄小说阅读吗？微软 edge tts 也行，都是多角色朗读的。

SylarQAQ

2024 年 12 月 13 日

可以了解一下 mutliTTS 然后引入 TTS 源后就可以了，我前段时间折腾了一下，虽然抑扬顿挫都有了，但是缺乏了一点儿场景对应的语气，不如真人说书的那种感觉

Shawn5

2024 年 12 月 13 日

@poplar50 昨晚上试了一下，能分角色，但是语气不会变化，不会根据情节或者文字改变，比如愤怒，高兴等等，都是平白直叙的，跟真人说书差距还是有的

Shawn5

2024 年 12 月 13 日

@SylarQAQ 谢谢，我也去试试，我刚百度了下，只有一个下载地址，但感觉又不像，github 上也没搜到，能告知下，是在哪里下载吗？

xz410236056

2024 年 12 月 13 日

@Shawn5 #5 你抖音搜小说，做得很好了

z7356995

2024 年 12 月 13 日

如果要我为多模态语音付费的话，我觉得应该是练习口语中的语音纠正，你这样发音不对，正确的这个发音是

clemente

2024 年 12 月 13 日

套一个模型的事 ....

Shawn5

2024 年 12 月 13 日

@clemente 有没有介绍的模型，感谢！！！

pkoukk

2024 年 12 月 13 日

没搞头，微信阅读、喜马拉雅、起点等已经大规模开始搞了。
这个事情最重要的不是 AI ，而是这些内容的版权，没内容你找个 AI 读 1 2 3 4 5 6 7 啊？

liu731

PRO

2024 年 12 月 13 日

https://speech.microsoft.com

没搞头啊，兄弟。这网站是个文员都能玩。

Shawn5

2024 年 12 月 13 日

@pkoukk 哈哈哈，的确，就是不知道有没有其他 AI 能落地的应用，三四个人小团队能够搞定的那种

zoharSoul

2024 年 12 月 13 日

成本很高吧

wyd011011daniel

2024 年 12 月 13 日

https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/speech-synthesis-markup-voice#use-speaking-styles-and-roles

你说的就是用大语言模型生成 SSML 标记过后的文本内容

看你是要实时还是预先训练好
实时的话，可以做个阅读器让用户自己导入小说。
起步等待要久一点然后上下文联系可能会出错。
预训练的话版权问题基本只能大公司做

我自己用阅读/爱阅记 azure tts 听书很久了，也挺听喜马拉雅的有声书。

喜马拉雅真人配的有声书（哈利波特系列/三体系列）除了情感以外还会模仿角色音色，配音功夫下的很多，而且还有环境配乐和各种实时动作的配乐。

现在 ai 配环境声不知道做的怎么样。感觉可以朝着对标这种有声剧想想办法。