V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
wseani
V2EX  ›  分享创造

Whisper Notes - 免费的语音转文本工具(iOS)

  •  1
     
  •   wseani ·
    mazzzystar · 2023-04-06 09:31:31 +08:00 · 4776 次点击
    这是一个创建于 600 天前的主题,其中的信息可能已经有所发展或是发生改变。

    简介

    产品名: Whisper Notes

    它是一个离线的OpenAI Whisper模型,可以将你的语音输入以极高的准确率转成文字、支持多语言夹杂。

    它是免费的:无内购、无广告、不联网。 (如果不缺钱,在未来很长一段时间我会维持它免费)

    动机

    市场上已经有一些 Whisper 工具了,为什么我还要做一个呢?需求主要是:

    1. 记录梦境:有时我做了个奇特的梦,醒来想记录,但睡眼朦胧很难打字,希望有个工具能快速录入语音并文本化。

    2. 回微信消息:有时我需要回复很长的微信,但此时我在街上或在吃饭,在不回复语音消息的情况下,快速回信息。

    3. 捕捉灵感:和 2 类似,有时不方便打字的场合突然有了新念头,想记录下来。

    市场上的工具,要么太大(速度慢)、要么太小(准确率低)、要么会上传你的音频。

    Whisper Notes 在准确率和速度之间做了折衷:尽可能使用最大的模型,但速度不至于慢到等几分钟才完成转录。正常情况下,你录入一段语音,等待几秒钟就可以完成。

    因为目的是「速记」,所以 Whisper Notes 的"日记"属性很弱。转录完,文字就会自动复制到剪贴板,你可以粘贴到微信、或真正的日记 /Memo 软件来整理。

    截图

    Whisper Notes

    欢迎下载体验 & 反馈👏

    App Store: Whisper Notes

    45 条回复    2023-07-18 17:47:36 +08:00
    wwqgtxx
        1
    wwqgtxx  
       2023-04-06 10:14:04 +08:00   ❤️ 1
    已经下载,支持楼主
    wwqgtxx
        2
    wwqgtxx  
       2023-04-06 10:39:22 +08:00
    试用了一下,当长录音的时候能否考虑到一定长度就开始计算了呢(并显示部分结果),现在仿佛是等到 stop 之后才会开始计算,这是否有点浪费时间
    Zeco41
        3
    Zeco41  
       2023-04-06 10:44:00 +08:00
    想支持一波,但手里的备用机还是 14.7.1 ,给你点个感谢吧。
    wseani
        4
    wseani  
    OP
       2023-04-06 10:53:24 +08:00
    @wwqgtxx 的确,实时计算体验会好一些,之后有空会试试~
    DjvuLee
        5
    DjvuLee  
       2023-04-06 12:29:49 +08:00
    不错!不过和苹果自带的语音转文字效果比较起来如何
    wseani
        6
    wseani  
    OP
       2023-04-06 13:13:21 +08:00
    @DjvuLee 你可以试试看!我的感觉是碾压。
    DjvuLee
        7
    DjvuLee  
       2023-04-06 13:27:31 +08:00
    @wseani whisper 的中文识别不是不太行吗?
    cest
        8
    cest  
       2023-04-06 13:36:29 +08:00
    @wwqgtxx #2 没法实时吧
    whisper 比其他语音输入猜得准就是靠用超大的 30s sliding window 做上下文解析的
    wseani
        9
    wseani  
    OP
       2023-04-06 13:57:15 +08:00
    @DjvuLee 应该是相比它对其他语言的支持准确率不太行,相比系统自带的强很多。
    @cest 他说的应该是,例如 5 分钟的音频,不需要等到录制完再 Transcribe
    OliverDD
        10
    OliverDD  
       2023-04-06 14:28:08 +08:00 via iPhone   ❤️ 1
    赞!好用
    johannhuang
        11
    johannhuang  
       2023-04-06 16:58:36 +08:00
    有趣的应用,虽然安装包有些大。还有一个遗憾,whisper 对硬件的要求低到移动设备就够了么?或者用起来有些“烧硬件”(用起来就卡一会儿)?
    johannhuang
        12
    johannhuang  
       2023-04-06 16:59:20 +08:00
    (“遗憾”实为“疑惑”)
    wankedKing
        13
    wankedKing  
       2023-04-06 17:08:00 +08:00
    如果可以记录梦话就好玩了,让它在睡觉时检测声音,如果有音频就写入。
    wseani
        14
    wseani  
    OP
       2023-04-06 17:10:29 +08:00
    @johannhuang
    Whisper small 的参数量是 2 亿,不算很大,手机上应该是没问题的。不过发热会降低 Core ML 性能,所以长时间可能会卡,内存也会缓慢上升。
    wseani
        15
    wseani  
    OP
       2023-04-06 17:11:38 +08:00
    @wankedKing
    我用过 SleepCycle 就支持记录梦话和打鼾,那个开一整晚挺耗电的,满电睡一晚第二天就剩 20%了。
    hackpro
        16
    hackpro  
       2023-04-06 17:26:24 +08:00 via iPhone
    可能的话可以支持下 iOS 15 吗😂
    ShinomiyaKaguya
        17
    ShinomiyaKaguya  
       2023-04-06 19:09:45 +08:00 via iPhone
    可以考虑做一个 mac 应用,然后允许上传音频或视频文件,语音转文字
    Zchary
        18
    Zchary  
       2023-04-06 20:35:49 +08:00 via iPhone
    这个 app 体积主要是被 model 占用了吗?
    wseani
        19
    wseani  
    OP
       2023-04-06 21:01:42 +08:00
    @Zchary 没错! 99.9%都是模型。
    wseani
        20
    wseani  
    OP
       2023-04-06 21:04:40 +08:00
    @ShinomiyaKaguya 因为是服务于我「不想在微信框打字」的需求,所以优先手机。Mac 端你可以搜 Aiko ,那个模型最大,最准确。
    wseani
        21
    wseani  
    OP
       2023-04-06 21:08:52 +08:00
    @hackpro 抱歉暂时不支持 15 ,主要是 16 相比 15 的模型速度快很多,15 的用户体验不太好 =.=
    hanguofu
        22
    hanguofu  
       2023-04-06 21:26:22 +08:00
    有没有人试过 用 普通话 的识别效果 ?
    bbbb
        23
    bbbb  
       2023-04-07 15:38:02 +08:00 via iPhone
    @hanguofu 说了 1234 ,识别了好几分钟,出来了这个:

    One, two, three, four, five, six, seven, eight, nine, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten
    wseani
        24
    wseani  
    OP
       2023-04-07 15:43:21 +08:00
    @bbbb 可以知道你的设备+系统吗?很奇怪。
    bbbb
        25
    bbbb  
       2023-04-07 16:11:47 +08:00 via iPhone
    @wseani iphone12 16.4
    yqf0215
        26
    yqf0215  
       2023-04-07 16:36:21 +08:00
    超厉害的楼主,mac os m1 能支持吗?还是习惯用电脑。当前一打开,就报错。
    wseani
        27
    wseani  
    OP
       2023-04-07 16:43:21 +08:00
    @bbbb 我印象中有几个报错的用户都是 16.4 ,估计是新系统引入的 bug...我会研究一下的。
    wseani
        28
    wseani  
    OP
       2023-04-07 16:44:31 +08:00
    @yqf0215 你可以试试 Aiko~
    wseani
        29
    wseani  
    OP
       2023-04-07 16:45:55 +08:00
    @yqf0215 确实,我试了下自己的 Mac 也是:
    “This app has crashed because it attempted to access privacy-sensitive data without a usage description. The app's Info.plist must contain an com.apple.security.device.audio-input key with a string value explaining to the user how the app uses this data. ”

    看上去是没加麦克风权限申请导致的。
    huazidev
        30
    huazidev  
       2023-04-07 17:15:30 +08:00
    请问用的哪个模型,各种语言支持的怎么样?
    yqf0215
        31
    yqf0215  
       2023-04-09 11:30:07 +08:00   ❤️ 1
    @wseani 坐等楼主更新,超级感谢。因为有朋友问我有没有类似的软件
    wseani
        32
    wseani  
    OP
       2023-04-10 14:41:20 +08:00
    @yqf0215
    今天完成了 Mac 版开发,模型比 iOS 大,并且支持上传录音了。顺利的话,明天就可以在 Mac 商店下载啦!
    ![]( https://i.328888.xyz/2023/04/10/imrMNy.th.jpeg)
    wseani
        33
    wseani  
    OP
       2023-04-10 14:41:56 +08:00
    wseani
        34
    wseani  
    OP
       2023-04-10 14:43:27 +08:00
    @ShinomiyaKaguya
    Mac 版预计明天也可以下载啦
    saimax
        35
    saimax  
       2023-04-11 21:43:19 +08:00 via iPhone   ❤️ 1
    我来补一下 mac 可以下载了
    neilp
        36
    neilp  
       2023-04-12 22:40:15 +08:00
    有没有可能把这个稍微改一下, 改成一个能实时对话翻译的 app.
    可以选择语言, 当然能自动识别语言更好.
    然后, 实时互译. 支持自己提供 openai api key.
    wseani
        37
    wseani  
    OP
       2023-04-13 09:07:42 +08:00
    @neilp 有想过,因为我也需要。
    neilp
        38
    neilp  
       2023-04-13 13:18:21 +08:00
    @wseani 前面最难的部分你这已经实现了. 后面就差调 api 翻译,并返回了. 这就能满足 99% 的用例了. 更进一步还可以朗读.
    neilp
        39
    neilp  
       2023-04-13 13:20:54 +08:00
    如果可以开源的话, 我愿意试试贡献. 虽然我目前还不会 ios
    wseani
        40
    wseani  
    OP
       2023-04-13 17:34:14 +08:00
    @neilp 这并不是我的功劳,模型部分你可以看[whisper.cpp]( https://github.com/ggerganov/whisper.cpp)。在这个项目上我只是做了 UI+功能,以及中文的段落处理。之所以不用翻译 api ,是因为我希望这个 app 完全离线,一旦使用翻译 api ,这个软件将无法免费供人使用。
    neilp
        41
    neilp  
       2023-04-13 18:13:26 +08:00
    翻译只是另外一个功能而已, 如果你能上架翻译功能, 很多人会付费.
    wseani
        42
    wseani  
    OP
       2023-04-13 18:30:11 +08:00
    @neilp 我有点隐私洁癖,不希望弹出「请求访问网络」窗口。如果不做成付费 app ,内购的话会弹窗。
    huyinjie
        43
    huyinjie  
       2023-05-05 11:47:25 +08:00
    支持!可以做个导入录音的功能吗
    wseani
        44
    wseani  
    OP
       2023-05-05 13:44:56 +08:00
    @huyinjie Mac 版支持导入音频,手机按钮太多我有点不知所措。
    Linvas
        45
    Linvas  
       2023-07-18 17:47:36 +08:00
    怎么做的训练?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5443 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 07:23 · PVG 15:23 · LAX 23:23 · JFK 02:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.