爱意满满的作品展示区。
andyskaura
4.64D

将影片自动转录出字幕,并翻译的本地应用

  •  
  •   andyskaura · Mar 19 · 2226 views
    This topic created in 56 days ago, the information mentioned may be changed or developed.
    前几天看到 v 友分享的字幕翻译工具,想想我迫切需要的功能是 生成外语影片中文字幕 功能。
    于是调研了下方案,原本打算古法编程的。
    但 gpt5.4 真的远超想象,没那么完美,但已符合我的需求,解决了某些电影字幕无->有的跨越。

    核心功能:
    ffmpeg 分离音频->VAD 本地模型降噪切片->Whisper 本地模型转录(非翻译)->LLM 大模型翻译

    分享给有需要的 v 友
    https://github.com/AndySkaura/crosssubtitle-ai/releases/tag/1.0
    当前只有 mac arm 版本,win 版本等下周 codex 有额度了再督促它干活儿。
    只在本机进行过测试

    原本想内置一个 qwen 7b ,但还是太重了,不如用免费不限量的 GLM-4-Flash-250414 。有条件的自己本地部署个小模型吧。
    12 replies    2026-04-23 10:04:58 +08:00
    Daybyedream
        1
    Daybyedream  
       Mar 19
    我现在转文字都白嫖千问 APP 里的 视频都不传直接提取音频发过去还是很快处理好的。
    andyskaura
        2
    andyskaura  
    OP
       Mar 19
    @Daybyedream 大模型还是太权威了 我用 Whisper 本地识别,如果不做降噪和切片,和上下文优化,识别准度还差很大意思
    arcsin1
        3
    arcsin1  
       Mar 19
    Whisper 本地识别 只能做些简单的。毕竟量不够
    wednesdayco
        4
    wednesdayco  
       Mar 19
    ?我刚给我对象弄了一个这个的 demo
    cairnechen
        5
    cairnechen  
       Mar 19
    memo ?
    indexError
        6
    indexError  
       Mar 20 via Android
    先别写了 认真的,再去做做调查
    superhuai
        7
    superhuai  
       Mar 20
    有没有好兄弟试试 AV
    Daybyedream
        8
    Daybyedream  
       Mar 20
    @andyskaura 主要不着急不是批量自动化的话,千问客户端,音视频里转文字上传之后够用还方便的。我一般也推荐别人用这个。
    andyskaura
        9
    andyskaura  
    OP
       Mar 20
    我的目的就是想把 nas 里的 av 都批量加上基础字幕
    andyskaura
        10
    andyskaura  
    OP
       Mar 20
    @Daybyedream #8 忘 @了
    galenzhao
        11
    galenzhao  
       Apr 22
    多人的音频分离有啥好用的吗,我现在缺了这一块的实现
    andyskaura
        12
    andyskaura  
    OP
       Apr 23
    @galenzhao 问了下 ai ,还是给出挺多方案的。
    不过当前项目没用,这项目的模式是 ffmpeg 分离声道,VAD 切分移除非人声部分,Whisper 转录原文,llm 翻译。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4628 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 51ms · UTC 00:10 · PVG 08:10 · LAX 17:10 · JFK 20:10
    ♥ Do have faith in what you're doing.