V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
edis0n0
V2EX  ›  程序员

有日语识别准确率类似 sonix.ai 的转写服务吗?

  •  
  •   edis0n0 · 2022-12-20 00:52:56 +08:00 · 1467 次点击
    这是一个创建于 716 天前的主题,其中的信息可能已经有所发展或是发生改变。
    google 那个是真的垃圾,一大段一大段地漏
    sonix 这个准确率还不错就是太贵了(真不是广告,开了好多年的美国公司,google 搜索结果前 10 个全测下来就这个能用),开每月 22 刀的会员后每小时还要 5 刀,随便转 20 小时音频就要 122 刀了
    虽然可以通过临时邮箱注册来无限白嫖但感觉这样做不好
    9 条回复    2022-12-23 14:06:26 +08:00
    zcf0508
        1
    zcf0508  
       2022-12-20 13:11:34 +08:00
    https://github.com/openai/whisper

    whisper japanese.wav --language Japanese
    edis0n0
        2
    edis0n0  
    OP
       2022-12-20 14:54:09 +08:00
    @zcf0508 #1 测试了一下这个识别率连 google 的 60%都没有
    edis0n0
        3
    edis0n0  
    OP
       2022-12-20 15:06:12 +08:00
    @zcf0508 #1 google 能准确识别的一段话它识别成了这样
    kuantingchen
        4
    kuantingchen  
       2022-12-21 09:53:15 +08:00
    edis0n0
        5
    edis0n0  
    OP
       2022-12-21 12:28:21 +08:00
    @kuantingchen #4 和 google 那个识别率差不多,和 sonix 这个差的还是有点远
    js8510
        6
    js8510  
       2022-12-21 15:27:12 +08:00
    我自己尝试在 AWS 上搭建了一个类似的服务。后来由于成本太高,准确率太差,没有盈利的可能。并没有投入运营。我用脱口秀大会口音比较重的一些选手做输入,准确率只有~70%。 如果是用 CCTV 的节目专业播音员的视频,准确率也就能到 95%。

    很好奇,你觉得怎样的收费算合理呢? 另外,我知道 https://www.descript.com/pricing 做的很好用,他们收费很低了。反正我觉得全跑在 AWS 上我做不到这么低的价格又这么多功能
    edis0n0
        7
    edis0n0  
    OP
       2022-12-22 02:00:40 +08:00
    @js8510 我觉得能在存在公共场所背景杂音时保持 75%识别率,收费 1~2 美元 /小时比较合理,但我实测即使是 sonix 这个日语+存在公共场所背景杂音准确率也只有 65%左右,远比不上人工
    js8510
        8
    js8510  
       2022-12-23 14:00:00 +08:00
    @edis0n0 1-2 美元 确实目前很难做到。。AWS transcribe 大概是$1.5 一小时的收费。阿里云是$1/h 。 另外处理视频 S3 的开销还有做 audio file encoding/decoding 的 cost, domain name 还有 stripe 的抽成,信用卡抽成,最终成本至少 3 到$5
    edis0n0
        9
    edis0n0  
    OP
       2022-12-23 14:06:26 +08:00
    @js8510 #8 我说的就是每小时 1-2 美元,就是目前这些服务准确率都实在太低了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3529 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 18ms · UTC 04:35 · PVG 12:35 · LAX 20:35 · JFK 23:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.