V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
momomoi
V2EX  ›  程序员

现阶段最优的语音转文本,文本转语音的方案是不是这两个呀

  •  
  •   momomoi · 2025 年 7 月 16 日 · 3908 次点击
    这是一个创建于 179 天前的主题,其中的信息可能已经有所发展或是发生改变。

    GPT-SoVITS + FunASR 本地化部署、支持中英文、调研了下 最优组合了吧

    23 条回复    2025-07-17 09:02:11 +08:00
    tommyshelbyV2
        1
    tommyshelbyV2  
       2025 年 7 月 16 日
    生产环境下不是
    zoharSoul
        2
    zoharSoul  
       2025 年 7 月 16 日
    并发能支持多少呀?
    momomoi
        3
    momomoi  
    OP
       2025 年 7 月 16 日
    @zoharSoul 我在确认最优方案啊
    zoharSoul
        4
    zoharSoul  
       2025 年 7 月 16 日
    @momomoi #3 我就是问问这个方案性能怎么样呀
    tool2dx
        5
    tool2dx  
       2025 年 7 月 16 日
    "最优的语音转文本"

    我自己测试下来,识别率最高的是多模态的 gemini 2.5 pro. 因为是思考模型, 不能实时语音录入, 但识别率很高.
    FlashEcho
        6
    FlashEcho  
       2025 年 7 月 16 日
    GPT-SoVITS 疑似是有点古老了,可以看看 fish-speech 1.5 ,CosyVoice 3
    Suinn
        7
    Suinn  
       2025 年 7 月 16 日
    @chesha1 CosyVoice 3 好像还没开源┭┮﹏┭┮
    cq65617875
        8
    cq65617875  
       2025 年 7 月 16 日
    funasr 那个识别率……
    humbass
        9
    humbass  
       2025 年 7 月 16 日
    funasr 在开源项目里头算可以的了
    只是没有找到合适的 tts ,SoVITS 是否支持 websocket ?@ momomoi
    w568w
        10
    w568w  
       2025 年 7 月 16 日
    借楼问问现在识别率最高、延迟最低的本地部署语言转文字系统是什么?
    hmxxmh
        11
    hmxxmh  
       2025 年 7 月 16 日
    gpt-sovits 是搞声音克隆比较好吧,魔搭上面 CosyVoice 比较火,也可以看看 chattts
    312ybj
        12
    312ybj  
       2025 年 7 月 16 日
    k2 whisper 也能做本地部署。asr 还要看音频前端算法,这个对 wer 的影响很大, 能看到的商用音频接口,肯定做了音频前端处理
    Aixtuz
        13
    Aixtuz  
       2025 年 7 月 16 日
    用过 CosyVoice2.0 的 Demo ,感觉效果挺好的。
    就是多音字和断句,偶尔有点问题。
    Aixtuz
        14
    Aixtuz  
       2025 年 7 月 16 日
    语音转文本的话,用过通义听悟,个人用用签到送的量就差不多了。
    除了人名和特殊名词以外的部分,准确率挺高了。而且比较方便点到哪、播到哪的校对。
    jadeborner
        15
    jadeborner  
       2025 年 7 月 16 日
    跟 minimax 比怎么样
    Oats
        16
    Oats  
       2025 年 7 月 16 日
    tts 的话 indextts 个人感觉不错
    cccssss
        17
    cccssss  
       2025 年 7 月 16 日
    铜币送上,学习了
    hurrytospring
        18
    hurrytospring  
       2025 年 7 月 16 日
    线上服务有比较好的吗
    chenzi0103
        19
    chenzi0103  
       2025 年 7 月 16 日
    可以看下我写的 实现了你说的 而且识别率和播放都还可以
    https://github.com/chengzi0103/SoulSpeak

    用的是 funasr + cosyvoice2
    momomoi
        20
    momomoi  
    OP
       2025 年 7 月 16 日
    @chenzi0103 好的 感谢
    kamikaze472
        21
    kamikaze472  
       2025 年 7 月 16 日
    没人推荐飞书吗, 我一直觉得飞书很好用了
    zinco
        22
    zinco  
       2025 年 7 月 16 日
    funasr 最近项目用了一下,生产上的实时语音识别,识别准确率 90%?总有一两个字识别不对,现在准备换线上的服务了
    z4zr
        23
    z4zr  
       2025 年 7 月 17 日
    我尝试了 funasr+qwq3+indextts 这个组合 funasr 和 indextts 对资源要求都不高,速度和并发没有太大或者即时性太高的要求 是可玩的
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2608 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 11:01 · PVG 19:01 · LAX 03:01 · JFK 06:01
    ♥ Do have faith in what you're doing.