V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
dmitsc
V2EX  ›  分享创造

[分享] 一款高效的音频/视频转文字工具——语音识别生成字幕

  •  
  •   dmitsc · 326 天前 · 1926 次点击
    这是一个创建于 326 天前的主题,其中的信息可能已经有所发展或是发生改变。
    以下内容由 chatgpt 撰写

    大家好,我在这里分享一个我最近发现( gang bian de )的非常实用的工具——音频 /视频转文字工具。

    这个工具可以帮助你把音频或者视频文件转化为文本,是非常好用的语音识别工具。最令人振奋的是,它不仅可以自动识别语言,而且可以生成多种格式的字幕文本。

    主页: https://whisper.myfastools.com/

    功能介绍:

    音频转文字
    识别语言
    生成多种格式的字幕文本( TXT 、SRT 、JSON 、TSV 、VTT )
    使用流程:

    上传你的音频或者视频文件,系统会生成一个提取码显示在网页上,你可以用这个提取码来提取你的识别结果。识别结果包含了多种格式的字幕文本。

    这是一段以英语演讲识别样例:

    [点击这里下载 TXT 格式的结果文件]

    https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.txt
    https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.srt
    https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.json
    https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.tsv
    https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.vtt
    替换后缀即可下载( TXT 、SRT 、JSON 、TSV 、VTT )中的其他格式

    希望这个工具对大家有所帮助。如果在使用过程中遇到问题,或者有什么改进的意见,都欢迎在下面留言。我会及时进行回复和改进。期待你们的反馈!

    TODO:修改 UI ,添加登录功能,添加使用 GPU 的工作节点,显示实时进度,显示列队
    第 1 条附言  ·  323 天前

    2023/6/1 儿童节更新

    • 添加语言选择
    • 添加质量/速度偏好选择

    目前默认为速度,如果选质量可能暂时不会处理。预计本周更新高质量识别。

    儿童节图片

    10 条回复    2023-08-23 16:50:07 +08:00
    shuxge1223
        1
    shuxge1223  
       325 天前
    准确率咋样啊
    dmitsc
        2
    dmitsc  
    OP
       325 天前
    @shuxge1223
    准确率很好了,你可以试一下

    不过现在是没上好的硬件,可能会慢,大概几十秒到几分钟不等。

    等我写完分布式处理之后,应该可以在三十秒内处理完大多数任务。
    cxumol
        3
    cxumol  
       325 天前
    JerryLin
        4
    JerryLin  
       325 天前
    看到 whisper 就想到 OpenAI 提供的 whisper 接口,楼主是使用 OpenAI 提供的吗?
    AMZsowhat
        5
    AMZsowhat  
       325 天前
    用几条中文人声语句测试了下,发声能准确识别,但是没有对上下文语意的分析,所以对于[在\再] [借\接]等词汇无法进行准确辨析
    dmitsc
        6
    dmitsc  
    OP
       325 天前
    @JerryLin 是的,使用了 OpenAI 的 Whisper 作为语音识别端。
    dmitsc
        7
    dmitsc  
    OP
       325 天前
    @AMZsowhat 目前由于硬件条件限制,采用了轻量模型。后续会采购硬件改用大模型,在那之后就会由上下文语意匹配的能力。
    dmitsc
        8
    dmitsc  
    OP
       323 天前
    @cxumol 预计本周末上线更高准确率的识别能力,到时候可以再试一下~
    TernenceZhou
        9
    TernenceZhou  
       240 天前
    你好,目前转文字好像没有弹出提取码
    大佬 服务还能用吗
    TernenceZhou
        10
    TernenceZhou  
       240 天前
    提取码在左下角,然后提取码下载 auto-speed-70f82c3577358ece19aa70f735fa6bc7
    https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-9805069510030683
    出现 block status
    识别文件没有下载成功
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   927 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 19:59 · PVG 03:59 · LAX 12:59 · JFK 15:59
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.