GPT-SoVITS + FunASR 本地化部署、支持中英文、调研了下 最优组合了吧
1
tommyshelbyV2 2025 年 7 月 16 日
生产环境下不是
|
2
zoharSoul 2025 年 7 月 16 日
并发能支持多少呀?
|
5
tool2dx 2025 年 7 月 16 日
"最优的语音转文本"
我自己测试下来,识别率最高的是多模态的 gemini 2.5 pro. 因为是思考模型, 不能实时语音录入, 但识别率很高. |
6
FlashEcho 2025 年 7 月 16 日
GPT-SoVITS 疑似是有点古老了,可以看看 fish-speech 1.5 ,CosyVoice 3
|
8
cq65617875 2025 年 7 月 16 日
funasr 那个识别率……
|
9
humbass 2025 年 7 月 16 日
funasr 在开源项目里头算可以的了
只是没有找到合适的 tts ,SoVITS 是否支持 websocket ?@ momomoi |
10
w568w 2025 年 7 月 16 日
借楼问问现在识别率最高、延迟最低的本地部署语言转文字系统是什么?
|
11
hmxxmh 2025 年 7 月 16 日
gpt-sovits 是搞声音克隆比较好吧,魔搭上面 CosyVoice 比较火,也可以看看 chattts
|
12
312ybj 2025 年 7 月 16 日
k2 whisper 也能做本地部署。asr 还要看音频前端算法,这个对 wer 的影响很大, 能看到的商用音频接口,肯定做了音频前端处理
|
13
Aixtuz 2025 年 7 月 16 日
用过 CosyVoice2.0 的 Demo ,感觉效果挺好的。
就是多音字和断句,偶尔有点问题。 |
14
Aixtuz 2025 年 7 月 16 日
语音转文本的话,用过通义听悟,个人用用签到送的量就差不多了。
除了人名和特殊名词以外的部分,准确率挺高了。而且比较方便点到哪、播到哪的校对。 |
15
jadeborner 2025 年 7 月 16 日
跟 minimax 比怎么样
|
16
Oats 2025 年 7 月 16 日
tts 的话 indextts 个人感觉不错
|
17
cccssss 2025 年 7 月 16 日
铜币送上,学习了
|
18
hurrytospring 2025 年 7 月 16 日
线上服务有比较好的吗
|
19
chenzi0103 2025 年 7 月 16 日
|
20
momomoi OP @chenzi0103 好的 感谢
|
21
kamikaze472 2025 年 7 月 16 日
没人推荐飞书吗, 我一直觉得飞书很好用了
|
22
zinco 2025 年 7 月 16 日
funasr 最近项目用了一下,生产上的实时语音识别,识别准确率 90%?总有一两个字识别不对,现在准备换线上的服务了
|
23
z4zr 2025 年 7 月 17 日
我尝试了 funasr+qwq3+indextts 这个组合 funasr 和 indextts 对资源要求都不高,速度和并发没有太大或者即时性太高的要求 是可玩的
|