V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Chism
V2EX  ›  macOS

macOS 有系统声音语音转文字工具吗?

  •  
  •   Chism · 2022-03-24 18:13:07 +08:00 · 4574 次点击
    这是一个创建于 993 天前的主题,其中的信息可能已经有所发展或是发生改变。
    实时获取系统声音,将其转为文字
    主要是为了英语使用
    半桶水英语水平,开视频会议经常没听明白对方说什么,如果能转成文本(英语),基本就没有理解障碍了
    目前我知道的是,mac 系统内的声音是可以实时读取的,再加个语音识别 api ,然后文本用悬浮窗口模式显示出来,这样的功能不难开发吧?
    14 条回复    2022-03-29 17:43:05 +08:00
    ivyliner
        1
    ivyliner  
       2022-03-24 18:56:29 +08:00   ❤️ 3
    其实挺难的.
    我了解目前就只有一款做到
    https://www.engineerdraft.com/bemyears/
    Chism
        2
    Chism  
    OP
       2022-03-24 19:14:57 +08:00
    @ivyliner

    体验不错,唯一缺点是只能从麦克风识别,这样戴耳机的话就不行了
    Chism
        3
    Chism  
    OP
       2022-03-24 19:17:06 +08:00
    @ivyliner 不过音源可以选择 zoom 通道,这个应该体验不错
    Chism
        4
    Chism  
    OP
       2022-03-24 19:23:34 +08:00
    @ivyliner

    开启这个软件时,系统声音调节失效,无法增加也无法减小声音,不知道你遇到过没
    ttgo
        5
    ttgo  
       2022-03-24 19:31:11 +08:00
    我用过一段时间 1 楼说那个做会议记录,但系统自带这个 api 识别率有点低。
    findex
        6
    findex  
       2022-03-24 21:11:43 +08:00
    我刚刚试了一下,感觉还挺不错的。M1 上会启用苹果内置硬件的 coreML 。
    正如官网说的
    > BeMyEars 充分利用苹果的 CoreML 和 Speech 机器学习框架, 语音识别全部在本地设备完成, APP 本身不会主动上传任何语音 /视频数据

    回复一下楼主,这款应用挺好用的,你创建一个虚拟声卡,将合成声音导入到虚拟声卡,用 BeMyEars 提取虚拟声卡的声音,就可以看视频(开会)看字幕了。还有导出字幕功能。将会从开启软件开始的字幕整体导入到一个 txt 文件。

    这个应用有 in app purchase (内购)。只能试用 7 次,然后订阅制。每月 3 刀,年付 30 刀。美区贵一点。国区可能 6 元每月吧。
    https://imgur.com/V0kmyef

    试了一下,感觉实时识别率不高,有错误。感觉 50%的中文准确率都不到,支持 arm64 ,cpu 使用率 3-4%,coreML 因为是利用 macos 自带的语音识别,cpu 占用率,你会看到一个进程 com.apple.siri.embeddedspeech 107% assistantd 的使用率大约 47%。英文识别率高一点,能达到个 60%吧。但是对于听关键词还是比较有帮助的。

    个人感觉这个应用就是套用系统内置的语音识别的壳。

    网易推出一款语音同传的软件: https://tongchuan.youdao.com/
    有免费版,每天一小时:
    > 源语言:中、英, 目标语言:中、英、日、韩
    支持的语言比较少,主要是中、英文。试过,比内置 siri 套壳准确多了。
    ivyliner
        7
    ivyliner  
       2022-03-24 21:26:36 +08:00
    @Chism
    安装 BlackHole 可以读取大部分语音. 你说的选择 zoom 通道应该也可以, 不过也有人反馈过有问题, 我没有复现过.
    目前也在研究新方法.

    音量控制说明文档.
    https://www.engineerdraft.com/bemyears/docs.html#%E5%A6%82%E4%BD%95%E8%B0%83%E8%8A%82%E9%9F%B3%E9%87%8F
    ivyliner
        8
    ivyliner  
       2022-03-24 21:29:45 +08:00
    @ttgo 目前中文准确率确实比较低, 但是英文应该还可以的. 我自己用够用, 主要场景和 OP 比较像辅助理解, 并没有完全依赖.
    最近也在研究新的语音识别的方法, 所以我说确实挺难的. 要懂 macOS 开发, 要懂语音识别技术.
    findex
        9
    findex  
       2022-03-24 21:41:35 +08:00
    @ivyliner 哇,原来你是这个 BeMyEars 原作者啊。哈哈。幸会。找了几个能提取 macos siri 语音识别的,也就只有你这款软件了。做的挺棒的。

    > 最近也在研究新的语音识别的方法, 所以我说确实挺难的. 要懂 macOS 开发, 要懂语音识别技术.

    祝福老哥捷报频传,攻克各种难关,造福一方。(话说能推出买断制的 app 么,想买断,嘿嘿)
    ivyliner
        10
    ivyliner  
       2022-03-24 21:49:20 +08:00   ❤️ 2
    @findex 看来对 BeMyEars 挺清楚的, 欢迎相互学习.
    简单纠正一下几个小的问题.
    1. 试用是 7 天, 不是 7 次. 如果是年付的话还可以免费试用七天, 一共是 14 天, 而且在 APP 订阅界面主动提供取消订阅的帮助文档, 自我感觉订阅算厚道.
    2. 每月 3 刀, 年付 30 刀 在中国区之外价格是对的. 在中国区的价格是 美区 10 元, 年付 98 元. 针对中国区是特殊设置的, 因为如果统一汇率计算的话, 导致有些国家特别贵, 其实不太合理. BeMyEars 的定价标准是一顿饭价格 1/3 每月. 自我感觉性价比也算厚道.
    3. BeMyEars 目前是调用系统内置的语言识别的接口, 但是并不是套一个壳那么简单, 里面还是有不少难度的.

    另外你推荐的网易语音同传软件我好像没有找到 macOS 版本, 如果有的话, 麻烦给一下, 万分感谢.
    因为我目前手上积累了不少听障的朋友, 他们特别需要一款 macOS 下面识别准确率高, 同时价格能够承担起的软件.
    wclebb
        11
    wclebb  
       2022-03-24 22:36:18 +08:00 via iPhone
    飞书可以,不过确实需要换。
    findex
        12
    findex  
       2022-03-24 22:49:30 +08:00 via iPhone
    @ivyliner 价格来言国区这个确实还可以了。对有听力障碍的朋友很有用。就是 siri 内置的语音识别不准,只能看个大概,但是对于慢速的视频会议应该问题不大吧。

    关于网易语音识别你可以虚拟机里试试,目前官方只支持 windows 版本.。但是网易有商用 API ,你可以申请成为网易二次开发作者,调用 API 。具体我没操作。我只是试过网易语音识别,识别度挺高的。每天的免费的 1 小时基本上可以开会 1 小时需求。

    我已经把你的应用推荐给了几个外国朋友,这个对于语言教学应该挺有帮助的。虽然 Siri 不太准,但是支持的语言多。
    ivyliner
        13
    ivyliner  
       2022-03-25 08:19:05 +08:00
    @findex 非常感谢推荐啊.
    其实在 windows 下面目前最好用的是, 联想语音 , 你可以试一下. 目前免费, 做的很好, 不过在 4.1 号之后要开始收费了.

    使用 API 的话, 其实反而更简单, 而且还有很多选择, 阿里, 百度, 腾讯.... 都有对应的 API, 问题是都很贵, 就说这个网易语音每天免费 1 小时, 超过的话, 收费标准是 2 元 /分钟. 要是会议不小心延迟 5 分钟, 就够一个 BeMyEars 一个月订阅费用了,
    当然你如果小心的话, 是可以保证不超出的, 但是开会沟通本来就需要比较专注, 然后还要分心做这些事情, 体验不太好.

    还有一个最重要的原因 我看 @Chism 需要用外语沟通, 那么大概率是在外企, 很多外企对数据的安全性特别看重, 直接把会议的语音上传到服务器进行识别, 虽然我们不能恶意推测这些厂商不会拿着这些数据做啥. 但是总是一个风险点.

    所以 BeMyEars 定位就是一款本地识别的软件, 尊重用户数据隐私. 当然弊端很明显 1. 本地计算资源消耗较大 解决思路: 苹果电脑硬件 M1, M2 算力提升较快, 问题到不是很大. 2. 识别准确性问题, 目前英语准确性还行, 汉语不是特别好用, 毕竟苹果是家美国企业. 解决思路: 1 苹果本身自己会不断提高准确性, 共享红利. 2. 自己调研语音识别方案, 已经在做了, 比较难 , 希望今年能有个比较好的产出吧.
    Jacklandrin
        14
    Jacklandrin  
       2022-03-29 17:43:05 +08:00
    Zoom ,Microsoft Teams, Google Meets 这类会议服务都是可以通过 web 方式进行的,而 chrome 浏览器自带了英文字幕功能。Microsoft Teams, Google Meets 应该也可以在 app 里开启英文字幕,zoom 我不太确定是不是得主持人得开启。
    https://support.google.com/chrome/answer/10538231?hl=zh-Hans
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4663 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 09:41 · PVG 17:41 · LAX 01:41 · JFK 04:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.