V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Marksdo
V2EX  ›  macOS

用 Whisper 的 AI 模型搞了个本机语音转文本及视频对话转录文本(字幕)的 app

  •  
  •   Marksdo · 2023-07-11 16:41:10 +08:00 · 4138 次点击
    这是一个创建于 502 天前的主题,其中的信息可能已经有所发展或是发生改变。

    应用商店搜索 Whisper Mate 下载试试

    以后看没字幕的片子也可以自己本机翻译来看了😅

    具体支持以下功能

    • 转录音频或视频文件
    • 使用 deepl 免费 api 翻译字幕
    • 嵌入字幕编辑器,以修正转录错误
    • 导出为 SRT 、VTT 、CSV 、JSON 、SEGMENT 格式
    • 支持为每个字幕设置发言人
    • 大多数操作支持批量选择,例如批量运行任务、批量翻译行或批量设置发言人
    • 支持拖放文件开始转录
    • 支持在搜索转录时键入文本
    • 编辑器可预览音频或视频文件,并与播放范围同步
    • 支持多语言转换

    https://apps.apple.com/us/app/id6450404233

    不会直接贴软件截图,只能发地址了 https://i.imgur.com/pZlbn2G.png https://i.imgur.com/Q4fIDRp.png https://i.imgur.com/H3Y2uRG.png

    第 1 条附言  ·  2023-08-16 20:15:10 +08:00
    国区下载或已购更新不了的可以用这个
    https://marksdo.gumroad.com/l/whispermate

    国区已遵循 ZC 下架了
    65 条回复    2024-10-06 16:36:26 +08:00
    Socrazy
        1
    Socrazy  
       2023-07-11 16:50:27 +08:00
    支持日语吗
    zhufeilong
        2
    zhufeilong  
       2023-07-11 17:02:04 +08:00
    不买 Lifetime Plans 有什么限制吗?
    Upperak1
        3
    Upperak1  
       2023-07-11 17:07:25 +08:00
    看了下,不付费只能用简单模型
    Marksdo
        4
    Marksdo  
    OP
       2023-07-11 17:33:17 +08:00
    @Socrazy 多语言的模型支持日语,不要选中 English 的模型,并在多语言模型选定自动或者指定日语
    Marksdo
        5
    Marksdo  
    OP
       2023-07-11 17:37:33 +08:00
    @zhufeilong Free 的限止了不能使用大模型,大模型会比较准确,特别是英语 Only 的对英语是很准确的,只需矫正极少部分.如果是 M1 及 M2 的机器,使用 CoreML 的模块能极大的提升转录的速度
    Marksdo
        6
    Marksdo  
    OP
       2023-07-11 17:38:54 +08:00
    @Upperak1 如果日常用的上,可以帮助提升效率的话,帮忙回下血...😂
    zhufeilong
        7
    zhufeilong  
       2023-07-11 17:39:10 +08:00
    @Marksdo #5 感谢
    Marksdo
        8
    Marksdo  
    OP
       2023-07-11 17:51:08 +08:00
    另外介绍下翻译那块,因为苹果商店不能明细写使用了破解的 Deepl 来实现免费翻译,其实可以 github 上找 deeplx 项目或者 zu1k/deepl 这两个项目,在 Whisper Mate 那里配制 local 类型的 deepl ,指向那两个逆向工程的 deeplx 项目,然后用但线程,间隔时间搞个 1-2 秒的,基本就免费随便翻译转录出来的文本了
    gpt5
        9
    gpt5  
       2023-07-11 20:55:45 +08:00
    如果未来支持实时 speech to text 了,请艾特我一下。
    ql562482472
        10
    ql562482472  
       2023-07-11 23:06:39 +08:00
    有 windows 版本嘛?然后有日语就更好了
    Chandleric
        11
    Chandleric  
       2023-07-11 23:09:18 +08:00
    导出的 SRT 字幕文件好像格式不对?时间轴和文本的位置颠倒了,导致播放软件都无法识别。另外在哪里可以导出双语字幕呢?我好像没有找到这个功能。如果能能解决的话以后看剧就不用等字幕组了,感谢作者!
    Marksdo
        12
    Marksdo  
    OP
       2023-07-12 09:28:37 +08:00
    @gpt5 这个可以说下具体场景吗?我看下具体怎么来弄实现
    Marksdo
        13
    Marksdo  
    OP
       2023-07-12 09:29:41 +08:00
    @Chandleric 😅..我修复下
    Marksdo
        14
    Marksdo  
    OP
       2023-07-12 09:30:40 +08:00
    @ql562482472 window 版本不会弄,都是弄 mac 上的 app ,还有其它几个小 App 有用的可以玩下哈
    gpt5
        15
    gpt5  
       2023-07-12 09:45:50 +08:00
    @Marksdo 比如在线会议,如果对方安全设置比较严格,zoom/teams 都无法打开软件自带的字幕功能(对我个人来说,我需要实时字幕,不需要翻译)。bemyears (作者也在 v 站)有实时字幕功能,但感觉准确度不是很高。
    LAMBO
        16
    LAMBO  
       2023-07-12 09:54:14 +08:00
    CoreML 模块开启后,字幕是简体和繁体混排的,请问是正常的吗
    LAMBO
        17
    LAMBO  
       2023-07-12 10:06:41 +08:00
    测试了一下,并不是 CoreML 导致的。但很奇怪,我在抖音上下载了一个短视频,转换出来,字幕始终都是简繁字体混排的,但测试 YouTube 上的长视频就正常,字幕文字一直是简体。
    Marksdo
        18
    Marksdo  
    OP
       2023-07-12 10:14:52 +08:00
    @gpt5 这个有计划做的,也是针对这种场景,但必须上 macOS13+,估计要一周
    Marksdo
        19
    Marksdo  
    OP
       2023-07-12 10:18:21 +08:00
    @LAMBO 正常,开发时也遇到这个问题,应该上 whisper 模型本身问题,看后面如果模型有更新,跟随看下,如果只是 coreml 开启后才出问题的可能上转 coreml 模型时裁枝了,fp32->fp16 了
    LAMBO
        20
    LAMBO  
       2023-07-12 10:30:38 +08:00
    @Marksdo 感谢,反复测试了下,应该和 coreml 无关。可能就是 whisper 模型本身问题导致的。
    Catch6
        21
    Catch6  
       2023-07-12 10:58:00 +08:00
    这玩意我记得有协议限制,不能商用,你可小心点吧
    awfe
        22
    awfe  
       2023-07-12 10:58:52 +08:00
    第一次下载模型到 66%的时候停住不动了,点击停止后再重新下载出现这个错误。切换到东京和新加坡的服务器也是一样。重新打开也是一样。
    saberw
        23
    saberw  
       2023-07-12 11:02:46 +08:00
    @gpt5 Win11 有实时字幕,甚至能识别抽象的日式英语发音
    zhufeilong
        24
    zhufeilong  
       2023-07-12 11:43:08 +08:00
    @Catch6 开源模型吧,而且国外已经非常多的竞品了,像 MacWhisper 、WhisperScript 用高级模型也都是要收费🤡
    Marksdo
        25
    Marksdo  
    OP
       2023-07-12 11:54:40 +08:00
    @awfe 这个服务器在国外,如果不稳定行要 FQ 来下载.
    Marksdo
        26
    Marksdo  
    OP
       2023-07-12 11:59:53 +08:00
    把国区价格改为了$4.99 ,谢谢大家的建议!
    gpt5
        27
    gpt5  
       2023-07-12 12:05:00 +08:00
    @saberw 但是 win11 自带那个只有英语。。比如整理会议记录时,还需要中文。
    xswer001
        28
    xswer001  
       2023-07-12 18:26:33 +08:00
    在预览字幕的时候,视频稍微长一点,会特别卡。上面也有人说过的,srt 导出格式是错误的,没法正常导入视频观看。
    saberw
        29
    saberw  
       2023-07-15 23:46:47 +08:00
    @gpt5 开发版可以选择语言,中英日都有,我都用半年了
    gpt5
        30
    gpt5  
       2023-07-16 12:31:09 +08:00
    @saberw 卧槽,试了一下,精度和速度都还不错。
    minamike
        31
    minamike  
       2023-07-16 18:11:03 +08:00
    发现了一个骚操作
    先下载一个最小的模型和 CoreML 模型
    然后用网上下载的编译好的 large 模型和 CoreML 模型替换掉就好了🐶
    zhangwb2008
        32
    zhangwb2008  
       2023-07-16 20:22:48 +08:00
    推荐个免费的竞品 Windows/Mac 通用 https://mxmefbp9p0g.feishu.cn/docx/ZI3ldweTXorTvMxYLbucT00Un5n
    Marksdo
        33
    Marksdo  
    OP
       2023-07-22 10:11:21 +08:00
    @minamike 😅,被你发现你
    Marksdo
        34
    Marksdo  
    OP
       2023-07-22 10:40:53 +08:00
    @z1249502889 SRT 格式错误的新版本已经修复,可以更新试试,字幕多卡的问题,已记录下,会修复的!感谢提供 BUG
    minamike
        35
    minamike  
       2023-07-22 11:17:47 +08:00
    @Marksdo #33 主要是不知道为啥购买界面一片空白,难道是我的系统是 14.0 测试版的原因
    Marksdo
        36
    Marksdo  
    OP
       2023-07-22 18:50:28 +08:00
    @minamike 还没在 14.0 上测试过,开发机只有一台也不敢贸然升级上去
    Marksdo
        37
    Marksdo  
    OP
       2023-07-22 18:52:32 +08:00
    @minamike 还没在 14.0 上测试过,开发机只有一台也不敢贸然升级上去
    @z1249502889 我测试了一部 2 个多小时的影片没感觉到卡(转换后),如果在转换中去看是会卡的,whisper 默认是只保留 2 个核心给用户其它地方使用,其它都用来做计算了
    xswer001
        38
    xswer001  
       2023-07-22 21:41:37 +08:00
    @Marksdo #37 具体表现是,随便拉翻译后的字幕,字幕的顺序会错乱,对应不到播放条上。如果音频时间比较长,字幕拉到一半,然后再拉到最开始的地方,会发现字幕不能回到最开始的时间点。
    zhufeilong
        39
    zhufeilong  
       2023-07-26 13:40:21 +08:00
    @z1249502889 #38 我也遇到了这个问题 @Marksdo 希望有空能修复字幕顺序错乱的问题
    azurerayus
        40
    azurerayus  
       2023-08-04 19:10:06 +08:00
    作者,经过使用发现了一点问题还有需要几个功能改进
    已知问题:
    1 、在原始字幕进行翻译后,发现错误进行修改原始字幕。再进行单行翻译,在左侧列表下依旧显示过往的错误翻译。没有进行翻译更新,但是在右侧的字幕预览中倒是没有问题。
    2 、更改字幕效果中的透明度无效,一旦尝试更改就始终维持在 100%不透明状态。

    功能需求:
    1 、增加对于 whisper api 的支持,可以放在付费项。这个对于低配机来说的确重要。就是一个分离音轨提交 api 就行。
    2 、增加对于 chatgpt 翻译支持,这个有很多成熟案例。AI 翻译还是要效果好一些,如果支持自定义 prompt ,那么对于一些视频先大致指定内容和翻译角色,应该效果会好很多。

    这个软件的功能其实我自己也尝试做过,这是个普遍的需求大家都有。一般再集成一个 youtube 下载器,支持部分网址的直接解析下载。本地识别或者 api 识别再翻译就是很流畅的流程了。

    价格方面本来看到有 5 刀,结果到昨天晚上就是 20 刀了。这个常态化价格我觉得还是在 10 刀以下更吸引人购入。
    azurerayus
        41
    azurerayus  
       2023-08-04 19:13:25 +08:00
    对了,hugging face 上已经有了 whisper.cpp 再进行 coreml 转换的模型了,各个规模都有,增加下载链接就可以了,没必要还本地再转换。
    Marksdo
        42
    Marksdo  
    OP
       2023-08-08 09:52:50 +08:00
    @z1249502889 试试最新的 3.5 版本是否还有这个问题?
    @zhufeilong 试试最新的 3.5 版本是否还有这个问题?
    Marksdo
        43
    Marksdo  
    OP
       2023-08-08 10:04:23 +08:00
    @azurerayus 1 、在原始字幕进行翻译后,发现错误进行修改原始字幕。再进行单行翻译,在左侧列表下依旧显示过往的错误翻译。没有进行翻译更新,但是在右侧的字幕预览中倒是没有问题。
    回复:这个问题试试修改完后按 command+e 切换回非编辑状态,发现编辑的 TextFields 就是有这个问题,暂时没找到比较好的解决,我再找下

    2.更改字幕效果中的透明度无效,一旦尝试更改就始终维持在 100%不透明状态。
    回复:记录下了,应该是 bug,在下个版本 V3.5.1 修改


    功能需求:
    1 、增加对于 whisper api 的支持,可以放在付费项。这个对于低配机来说的确重要。就是一个分离音轨提交 api 就行。
    回复: 其实现在音轨已经是分离的,低配机好像也没场景用这个啊?不过用 whisper api 来翻译估计能再准确不少,我看下后面怎么整合进来,顺便介绍下新的 V3.5 已经可以对任何一条文案下载其音轨,并且选择多个字幕下载会自动合并为一条音轨

    2 、增加对于 chatgpt 翻译支持,这个有很多成熟案例。AI 翻译还是要效果好一些,如果支持自定义 prompt ,那么对于一些视频先大致指定内容和翻译角色,应该效果会好很多。
    回复:套 chatGPT 的不好弄,起码国内用不了,苹果发了邮件说我类似 GPT 的在国内已经下架....Motrix App 直接白搞

    一般再集成一个 youtube 下载器,支持部分网址的直接解析下载。本地识别或者 api 识别再翻译就是很流畅的流程了。
    回复:下载 Youtube 的不知道能不能上架苹果商店,套到不难,下个版本试试


    价格问题是这样上次苹果发邮件给我说国内有 ZC 不能上带 GPT 的上架,想着不对国内了就加价割老外了...,不急的老爹等后面打个非苹果商店版本出来,走其它途径便宜出
    Marksdo
        44
    Marksdo  
    OP
       2023-08-08 10:05:15 +08:00
    @awfe 最新 V3.5 版本下载这块重写了支持了断点续传,帮忙再试试.
    Marksdo
        45
    Marksdo  
    OP
       2023-08-08 10:08:34 +08:00
    @azurerayus coreml 模型首次都是要花本地再编译,hf 上的只是一个 coreml 格式文件,本地跑 Whipser 感觉起码 M1 Pro 起步, 我用 M1 跑 Medium 的模型都感觉慢的不可接受.实时识别只有 base 下可以接受响应速度
    Marksdo
        46
    Marksdo  
    OP
       2023-08-08 10:15:50 +08:00
    @azurerayus 这个常态化价格我觉得还是在 10 刀以下更吸引人购入。
    好,我接受你的建议了,已改为$9.99 了
    zhufeilong
        47
    zhufeilong  
       2023-08-08 12:37:56 +08:00
    @Marksdo 另外国区是下架了是吗,在已购已经下载不回来了
    Marksdo
        48
    Marksdo  
    OP
       2023-08-08 14:46:23 +08:00
    国区不允许带 AI 的上架...需要等下,在看怎么打独立在商店外的版本,到时已购买的信息是可以复用的

    查了下带下载 youtube 视频的也是上架不了商店的,也需要将这个功能做在商店外的版本
    Marksdo
        49
    Marksdo  
    OP
       2023-08-08 14:50:15 +08:00
    因为邮件里还有苹果写到不少如 ZC,ZF 这些相关的关键字,就不贴出来了,反正国区 AI 相关的估计都挂了
    azurerayus
        50
    azurerayus  
       2023-08-09 16:49:50 +08:00
    现在的限制都是越来越多,这个东西呢我也想了一下有一些的套路。
    例如常见的内购绑定邮箱,然后 app store 以外的版本利用邮箱激活订阅。

    ai 翻译以及多网站下载还是很重要并且很好用的,这些都有开源实现,加进去很容易。一般软件加一个沟通群链接,带上些 wiki ,墙内墙外自己去找就差不多了。
    Marksdo
        51
    Marksdo  
    OP
       2023-08-16 20:11:10 +08:00
    国区下载或更新不了的可以用这个
    https://marksdo.gumroad.com/l/whispermate
    支持 Youtube 的视频下载了

    用 V2EX-USERS 这个 Coupon 可以返回跟苹果商店一样的价格了.
    另外看了 Gumroad 的文档是支持 Affiliates, 有兴趣分成的或知道怎么玩的一起赚$啊
    Marksdo
        52
    Marksdo  
    OP
       2023-08-16 20:13:38 +08:00
    貌似是注册好 GumRoad 的帐号,然后加入 Whisper Mate 的 Affiliates,这边生成你独有的链接,然后从链接进来 30 天内有销售就有提成
    azurerayus
        53
    azurerayus  
       2023-08-17 19:08:26 +08:00
    一个是不同渠道销售的按照邮箱绑定激活,否则会有换机授权的问题。
    第二个是针对国内对于 AI 的限制,还可以采用插件的方式放在网上来下载。

    刚才在编辑字幕的时候遇到问题,有时语音识别一个接近的读音都会识别错,所以按照错误的结果来筛选。但是一旦对字幕进行任何一点修改,那么这一行也就不在筛选之列,瞬间消失了。
    应当在筛选后就不动态筛选,而是手动点击后再筛选。方便修改错误结果。

    一般做这个产品,至少给个个人站,和一点点 wiki 。
    zhufeilong
        54
    zhufeilong  
       2023-08-18 12:32:39 +08:00
    @Marksdo 感谢开发商店外的版本
    Marksdo
        55
    Marksdo  
    OP
       2023-08-28 10:58:13 +08:00
    @azurerayus 应当在筛选后就不动态筛选,而是手动点击后再筛选。方便修改错误结果。
    这个这周的 V4.0.1 加上,我自己也遇到过这个问题,要想下怎么解决
    @zhufeilong 之前的商店外版本有大 BUG...套 python 来下载 YT 视频失败...换了解决方案,现在应该比较完美了
    Marksdo
        56
    Marksdo  
    OP
       2023-08-28 11:10:05 +08:00
    顺便调查下,大家觉得这个搞 iPad 版本有没有前景,有需求吗?个人感觉有,又貌似没,怕白搞
    azurerayus
        57
    azurerayus  
       2023-08-29 06:24:48 +08:00
    @Marksdo 我估计难,主要是性能限制、用户喜好和版权限制。
    要搞 ipad 版,那估计就得上 whisper api 了,不比 mac ,用 ipad 的没几个愿意等转码时间。
    但是你这个没办法搞视频下载,然后实时识别需要的性能估计不够。m1 都难
    哪个用 ipad 的会去搞这个,受众太小,还不如期待他们用 mac 然后共享给 ipad
    Marksdo
        58
    Marksdo  
    OP
       2023-08-31 17:11:15 +08:00
    可能 iPad 有一种使用场景,比如老外教授之类的课程时,如果外语不太好,可以拿着 iPad 来用 whisper Mate 进行大概的实时转录并且将课程语音录下来.找下苹果有没有方便的方式直接转 macOS 到 iPad , Mac Catalyst 貌似只能将 iPad 的转 mac,没有反过来的..q-_-p
    ttgo
        59
    ttgo  
       2023-09-17 19:08:42 +08:00
    商店版与你网站上的版本有区别么?
    ttgo
        60
    ttgo  
       2023-09-17 20:27:10 +08:00
    我想实时转录,试了一段新闻,我感觉"简化模型"是“可用”的下限了,
    然而"简化模型"做不到实时,我是 m1 pro 。
    azurerayus
        61
    azurerayus  
       2023-09-21 19:23:56 +08:00
    你这个新版的怎么连带翻译导出字幕都不行了
    barryzhai
        62
    barryzhai  
       2023-09-23 23:54:10 +08:00
    @Marksdo 您好,最新版本的 deepl 翻译出现错误,申请 deepl api 后填入出现:未能读取数据,因为他的格式不正确
    vegetablebird
        63
    vegetablebird  
       335 天前
    可以实时转录在线会议别人的发言吗?
    380cc
        64
    380cc  
       150 天前
    @Marksdo 好贵啊,30 美金呢,而且专业版不能试用,其实想试用一下。免费版只有 base 模型,测试没意义。
    junelee220
        65
    junelee220  
       49 天前
    这个还能用吗?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2843 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 09:25 · PVG 17:25 · LAX 01:25 · JFK 04:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.