现阶段最优的语音转文本，文本转语音的方案是不是这两个呀

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 179 天前的主题，其中的信息可能已经有所发展或是发生改变。

GPT-SoVITS + FunASR 本地化部署、支持中英文、调研了下最优组合了吧

gpt-sovits

FunASR

本地化部署

23 条回复 • 2025-07-17 09:02:11 +08:00

tommyshelbyV2

2025 年 7 月 16 日

生产环境下不是

zoharSoul

2025 年 7 月 16 日

并发能支持多少呀?

momomoi

2025 年 7 月 16 日

@zoharSoul 我在确认最优方案啊

zoharSoul

2025 年 7 月 16 日

@momomoi #3 我就是问问这个方案性能怎么样呀

tool2dx

2025 年 7 月 16 日

"最优的语音转文本"

我自己测试下来,识别率最高的是多模态的 gemini 2.5 pro. 因为是思考模型, 不能实时语音录入, 但识别率很高.

FlashEcho

2025 年 7 月 16 日

GPT-SoVITS 疑似是有点古老了，可以看看 fish-speech 1.5 ，CosyVoice 3

Suinn

2025 年 7 月 16 日

@chesha1 CosyVoice 3 好像还没开源┭┮﹏┭┮

cq65617875

2025 年 7 月 16 日

funasr 那个识别率……

humbass

2025 年 7 月 16 日

funasr 在开源项目里头算可以的了
只是没有找到合适的 tts ，SoVITS 是否支持 websocket ？@ momomoi

w568w

2025 年 7 月 16 日

借楼问问现在识别率最高、延迟最低的本地部署语言转文字系统是什么？

hmxxmh

2025 年 7 月 16 日

gpt-sovits 是搞声音克隆比较好吧，魔搭上面 CosyVoice 比较火，也可以看看 chattts

312ybj

2025 年 7 月 16 日

k2 whisper 也能做本地部署。asr 还要看音频前端算法，这个对 wer 的影响很大，能看到的商用音频接口，肯定做了音频前端处理

Aixtuz

2025 年 7 月 16 日

用过 CosyVoice2.0 的 Demo ，感觉效果挺好的。
就是多音字和断句，偶尔有点问题。

Aixtuz

2025 年 7 月 16 日

语音转文本的话，用过通义听悟，个人用用签到送的量就差不多了。
除了人名和特殊名词以外的部分，准确率挺高了。而且比较方便点到哪、播到哪的校对。

jadeborner

2025 年 7 月 16 日

跟 minimax 比怎么样

Oats

2025 年 7 月 16 日

tts 的话 indextts 个人感觉不错

cccssss

2025 年 7 月 16 日

铜币送上，学习了

hurrytospring

2025 年 7 月 16 日

线上服务有比较好的吗

chenzi0103

2025 年 7 月 16 日

可以看下我写的实现了你说的而且识别率和播放都还可以
https://github.com/chengzi0103/SoulSpeak

用的是 funasr + cosyvoice2

momomoi

2025 年 7 月 16 日

@chenzi0103 好的感谢

kamikaze472

2025 年 7 月 16 日

没人推荐飞书吗, 我一直觉得飞书很好用了

zinco

2025 年 7 月 16 日

funasr 最近项目用了一下，生产上的实时语音识别，识别准确率 90%？总有一两个字识别不对，现在准备换线上的服务了

z4zr

2025 年 7 月 17 日

我尝试了 funasr+qwq3+indextts 这个组合 funasr 和 indextts 对资源要求都不高，速度和并发没有太大或者即时性太高的要求是可玩的