实时扫描屏幕,提取匹配信息

281 天前
 hanaTsuk1

前提

我想实现一个监听电脑软件使用活动的工具,实时地获取屏幕上的信息。比如浏览器上当前的网页地址栏、浏览的文章、视频相关信息,其他软件诸如 vscode 当前的项目地址等等

这些需要一个通用的手段从画面中匹配、提取

想法

  1. 能不能根据页面上的内容进行图片相似度或布局上的匹配,再筛选出需要的信息做成匹配的模型,实时扫描的数据通过比对,存储起来
  2. 为每个需要监听的软件、网页进行单独的模型生成

文本提取可以用 ocr ,除此之外,我完全不懂 ai ,问问大家的看法🤔

1597 次点击
所在节点    奇思妙想
15 条回复
SWALLOWW
281 天前
详细讲讲需求是什么
hanaTsuk1
281 天前
@SWALLOWW
已经说的够清楚了 根据页面相似度匹配 获取特定区域的文本😐
redbin
280 天前
监控别人聊天信息是吧
hanaTsuk1
280 天前
@redbin
互联网不是法外之地👊,而且要这么麻烦吗,直接监听键盘输入就行了
pkoukk
280 天前
你说的这些东西,都没必要从屏幕获取。切实需求是什么?你从屏幕上获取这些信息是拿来干嘛的
redbin
280 天前
hanaTsuk1
280 天前
@pkoukk
监听电脑软件使用活动的工具,我写的清清楚楚,可能你不理解这能干嘛。有种时间追踪软件(比如什么番茄时钟),用来记录一天内做了些什么,通常是手动去记录,我现在在想一个实现自动记录电脑上的行为
hanaTsuk1
280 天前
@redbin
牛的🐮
pkoukk
280 天前
@hanaTsuk1 我说了啊,没必要从屏幕获取。判断进程列表和活跃状态就可以
hanaTsuk1
280 天前
@pkoukk
讨论问题能不能站在提问者抛出的角度来思考,就事论事,我问的怎么实现,你回答的是没有必要。有没有一种可能我已经实现了记录软件活跃状态了呢🙃
maymay5
280 天前
不现实,简而言之,你的目的是监听软件活动的活动详情,而且还要通用,如果从软件开发商角度你做这个属于窃取隐私的外挂,漏洞肯定秒补,另辟蹊径,你在监听到软件启动后开始录屏,把录屏喂给 AI 去分析,你至少要有另外一台设备专门用来 AI 分析,而且你的被监听电脑还要能做到边录屏边流畅使用,截图是不能满足需求的,因为你要的信息不可能都在同一个页面,你想要得知某些具体信息就只能在打开软件或打开网页后就开始录屏,浪费且低效产出还很少
maymay5
280 天前
你倒是可以做一个悬浮窗,简化手动记录,你需要记录时通过悬浮窗截屏,接下来把图片交给 AI 去提取信息
hanaTsuk1
280 天前
@maymay5
录屏倒是没考虑,可以监听鼠标点击后截屏匹配
浮窗截屏还行,就怕用户懒得用🤣,可以直接快捷键截全屏
cskeleton
273 天前
类似于 rewind.ai 吧,顺便我还搜到了这篇文章: https://sspai.com/prime/story/rewind-diy
hanaTsuk1
273 天前
@cskeleton
嗯,和 6 楼提到的差不多,它自称是 Windows 平台上的 Rewind 替代工具
我想做的和 rewind 最大的区别在于我只提取屏幕上的部分文本信息,寄希望于使用 AI 来区分布局进而提取。不行的话只能退而求其次,让用户创建一个个匹配模式,固定要提取的区域的坐标,在需要提取时手动选择哪种匹配模式

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1024752

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX