V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
rawk
V2EX  ›  分享创造

开发了一个和截屏无缝集成的 AI 应用

  •  2
     
  •   rawk · 3 天前 · 531 次点击

    MacCopilot

    思考

    LLM 越来越强大,一些多模态模型也逐渐成熟,但在交互方式上还有许多可以改善的方式。目前助手类应用( Copilot AI )的交互逻辑多是:模型能够理解图片 -> 添加上传图片的按钮 -> 处理图片、模型能够理解语音 -> 添加支持语音输入的按钮 -> 处理语音.

    更好的处理方式可能是,从数据产生的源头推测用户意图,例如用户在截图时,就可能已经包含了“需要理解图片”这一意图。在截图这一动作结束后,实际上就可以开始执行进一步的“理解”了。这样就可以缩短用户得到答案的路径。

    另外,考虑到在工作、生活、创作中,我们可能涉及到大量资料查阅的“临时小需求”,却又不想分心去做细致的查询,希望可以马上得到答案,继续创作。我得到的解决答案是:任意的桌面内容解析+多模态模型。

    因此开发了这个应用 MacCopilot 。

    特点

    • 无缝集成:快捷键呼出截图 -> 选定区域 -> 呼出问题输入框 -> 得到答案
    • 支持 OpenAI GPT-4o 、Google Gemini 、Claude AI

    一些使用场景

    • 得益于强大的多模态模型,可以进行全局且更强大的 OCR 功能;
    • 论文阅读助手,临时查询复杂概念
    • 微信回复助手:截图 -> 回复特定语气回复
    • 邮件回复助手
    • 各类语种、各类资料申请类网站(例如申请海外 LLC )助手
    • 答题助手

    应用截图

    Boost your Copilot AI experience with MacCopilot

    使用应用需要自有的 API key 。

    访问网站 MacCopilotGumroad - MacCopilot

    欢迎大家分享宝贵建议~

    1 条回复
    CommandZi
        1
    CommandZi  
       2 天前
    惨啦,点子“撞车”了,我也正在开发类似的应用😭
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3012 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 13:58 · PVG 21:58 · LAX 06:58 · JFK 09:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.