OCR 方案的聊天记录提取

282 天前
 brightrystal

如题,最近研究了很多提取客户端聊天记录的方案,但是要么是 Hook 要么是 wechaty 这种,总是担心因为特征等原因导致封号,所以想尝试一下纯使用计算机视觉的方案去提取聊天记录

发现效果还行

原理就是先取得边框再切割记录

最后使用 OCR 提取信息就行了,不知道为啥市面上很少看到这种方案,除了慢还有其他原因嘛?

1976 次点击
所在节点    问与答
17 条回复
brightrystal
282 天前
简单修改了下参数,其他的软件适配也很简单,相比各个软件去 hook 似乎这种方案也更通用吧

![1710825615951.png]( https://img2.imgtp.com/2024/03/19/ac4NA8Tw.png)
ztbz123
282 天前
大佬,这个有具体技术实现或代码分享吗,近期也在研究 工作群聊天记录 保存和总结 ,想借鉴一下。
malusama
282 天前
你能拿到设备直接解密本地的数据库啊。。。那么复杂干嘛
brightrystal
282 天前
@malusama uia 吗?还是?一般这些客户端好像没有接口暴露出来吧
brightrystal
282 天前
@ztbz123 过段时间吧,里面耦合了太多业务代码了,我用的是 opencv
ztbz123
282 天前
@alsritter1 ok 已关注,问问,对于聊天记录刷屏翻页的要怎么处理,滚动吗?还有基于 opencv 的,一次只能监控一个群(打开界面),如果是多个群消息需要采集和分析,是不是就要开多台机器和窗口运行 cv 代码?
brightrystal
282 天前
@ztbz123 滚动这块没啥好办法,我是滚动截图,最后再合成的方案,目前这个方案主要是 OCR 的速度有点慢,我用的是 RapidOCR ,满屏消息需要 7 秒左右,不知道有没有更快的开源 OCR 工具
phx1
282 天前
能拿到原始数据为啥要搞计算机视觉?
csulyb
282 天前
这不是侵犯隐私吗 这么多人在干这种事?
brightrystal
282 天前
@phx1 怎么拿?
gdfsjunjun
282 天前
我记得不是有可以提取本地数据库,然后备份聊天记录吗?上个月看到的,不记得在哪看到的。反正关键词就是备份。
brightrystal
282 天前
@gdfsjunjun 不是备份记录的需求,是自动化客服的场景,主要是想要快速对接多平台,一个个去写太累了
malusama
282 天前
https://www.forensicfocus.com/articles/decrypt-wechat-enmicromsgdb-database/
wechat 是可以解密本地数据库的, 就是设备得 root
malusama
282 天前
企业微信也有 api 直接获取消息的啊?
brightrystal
282 天前
@malusama 企业微信的 api 我知道,但是得收费,我的目标群体大部分都是个体户,让人家掏这个钱不太现实
phx1
282 天前
musi
282 天前
@csulyb #9 我看我自己和我朋友的聊天记录侵犯了你的隐私?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1025024

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX