V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
hanaTsuk1
V2EX  ›  奇思妙想

实时扫描屏幕,提取匹配信息

  •  
  •   hanaTsuk1 · 280 天前 · 1595 次点击
    这是一个创建于 280 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前提

    我想实现一个监听电脑软件使用活动的工具,实时地获取屏幕上的信息。比如浏览器上当前的网页地址栏、浏览的文章、视频相关信息,其他软件诸如 vscode 当前的项目地址等等

    这些需要一个通用的手段从画面中匹配、提取

    想法

    1. 能不能根据页面上的内容进行图片相似度或布局上的匹配,再筛选出需要的信息做成匹配的模型,实时扫描的数据通过比对,存储起来
    2. 为每个需要监听的软件、网页进行单独的模型生成

    文本提取可以用 ocr ,除此之外,我完全不懂 ai ,问问大家的看法🤔

    15 条回复    2024-03-26 09:54:19 +08:00
    SWALLOWW
        1
    SWALLOWW  
       280 天前
    详细讲讲需求是什么
    hanaTsuk1
        2
    hanaTsuk1  
    OP
       280 天前
    @SWALLOWW
    已经说的够清楚了 根据页面相似度匹配 获取特定区域的文本😐
    redbin
        3
    redbin  
       279 天前
    监控别人聊天信息是吧
    hanaTsuk1
        4
    hanaTsuk1  
    OP
       279 天前
    @redbin
    互联网不是法外之地👊,而且要这么麻烦吗,直接监听键盘输入就行了
    pkoukk
        5
    pkoukk  
       279 天前
    你说的这些东西,都没必要从屏幕获取。切实需求是什么?你从屏幕上获取这些信息是拿来干嘛的
    redbin
        6
    redbin  
       279 天前
    hanaTsuk1
        7
    hanaTsuk1  
    OP
       279 天前
    @pkoukk
    监听电脑软件使用活动的工具,我写的清清楚楚,可能你不理解这能干嘛。有种时间追踪软件(比如什么番茄时钟),用来记录一天内做了些什么,通常是手动去记录,我现在在想一个实现自动记录电脑上的行为
    hanaTsuk1
        8
    hanaTsuk1  
    OP
       279 天前
    @redbin
    牛的🐮
    pkoukk
        9
    pkoukk  
       279 天前
    @hanaTsuk1 我说了啊,没必要从屏幕获取。判断进程列表和活跃状态就可以
    hanaTsuk1
        10
    hanaTsuk1  
    OP
       279 天前
    @pkoukk
    讨论问题能不能站在提问者抛出的角度来思考,就事论事,我问的怎么实现,你回答的是没有必要。有没有一种可能我已经实现了记录软件活跃状态了呢🙃
    maymay5
        11
    maymay5  
       279 天前
    不现实,简而言之,你的目的是监听软件活动的活动详情,而且还要通用,如果从软件开发商角度你做这个属于窃取隐私的外挂,漏洞肯定秒补,另辟蹊径,你在监听到软件启动后开始录屏,把录屏喂给 AI 去分析,你至少要有另外一台设备专门用来 AI 分析,而且你的被监听电脑还要能做到边录屏边流畅使用,截图是不能满足需求的,因为你要的信息不可能都在同一个页面,你想要得知某些具体信息就只能在打开软件或打开网页后就开始录屏,浪费且低效产出还很少
    maymay5
        12
    maymay5  
       279 天前
    你倒是可以做一个悬浮窗,简化手动记录,你需要记录时通过悬浮窗截屏,接下来把图片交给 AI 去提取信息
    hanaTsuk1
        13
    hanaTsuk1  
    OP
       279 天前
    @maymay5
    录屏倒是没考虑,可以监听鼠标点击后截屏匹配
    浮窗截屏还行,就怕用户懒得用🤣,可以直接快捷键截全屏
    cskeleton
        14
    cskeleton  
       273 天前
    类似于 rewind.ai 吧,顺便我还搜到了这篇文章: https://sspai.com/prime/story/rewind-diy
    hanaTsuk1
        15
    hanaTsuk1  
    OP
       272 天前
    @cskeleton
    嗯,和 6 楼提到的差不多,它自称是 Windows 平台上的 Rewind 替代工具
    我想做的和 rewind 最大的区别在于我只提取屏幕上的部分文本信息,寄希望于使用 AI 来区分布局进而提取。不行的话只能退而求其次,让用户创建一个个匹配模式,固定要提取的区域的坐标,在需要提取时手动选择哪种匹配模式
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1110 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 23:08 · PVG 07:08 · LAX 15:08 · JFK 18:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.