OCR 方案的聊天记录提取

343 天前
brightrystal  brightrystal

如题,最近研究了很多提取客户端聊天记录的方案,但是要么是 Hook 要么是 wechaty 这种,总是担心因为特征等原因导致封号,所以想尝试一下纯使用计算机视觉的方案去提取聊天记录

1710822464020.png

发现效果还行

原理就是先取得边框再切割记录

1710822545098.png

最后使用 OCR 提取信息就行了,不知道为啥市面上很少看到这种方案,除了慢还有其他原因嘛?

2071 次点击
所在节点   问与答  问与答
17 条回复
brightrystal
brightrystal
343 天前
简单修改了下参数,其他的软件适配也很简单,相比各个软件去 hook 似乎这种方案也更通用吧

![1710825615951.png]( https://img2.imgtp.com/2024/03/19/ac4NA8Tw.png)
ztbz123
ztbz123
343 天前
大佬,这个有具体技术实现或代码分享吗,近期也在研究 工作群聊天记录 保存和总结 ,想借鉴一下。
malusama
malusama
343 天前
你能拿到设备直接解密本地的数据库啊。。。那么复杂干嘛
brightrystal
brightrystal
343 天前
@malusama uia 吗?还是?一般这些客户端好像没有接口暴露出来吧
brightrystal
343 天前
@ztbz123 过段时间吧,里面耦合了太多业务代码了,我用的是 opencv
ztbz123
343 天前
@alsritter1 ok 已关注,问问,对于聊天记录刷屏翻页的要怎么处理,滚动吗?还有基于 opencv 的,一次只能监控一个群(打开界面),如果是多个群消息需要采集和分析,是不是就要开多台机器和窗口运行 cv 代码?
brightrystal
343 天前
@ztbz123 滚动这块没啥好办法,我是滚动截图,最后再合成的方案,目前这个方案主要是 OCR 的速度有点慢,我用的是 RapidOCR ,满屏消息需要 7 秒左右,不知道有没有更快的开源 OCR 工具
phx1
343 天前
能拿到原始数据为啥要搞计算机视觉?
csulyb
343 天前
这不是侵犯隐私吗 这么多人在干这种事?
brightrystal
343 天前
@phx1 怎么拿?
gdfsjunjun
343 天前
我记得不是有可以提取本地数据库,然后备份聊天记录吗?上个月看到的,不记得在哪看到的。反正关键词就是备份。
brightrystal
343 天前
@gdfsjunjun 不是备份记录的需求,是自动化客服的场景,主要是想要快速对接多平台,一个个去写太累了
malusama
343 天前
https://www.forensicfocus.com/articles/decrypt-wechat-enmicromsgdb-database/
wechat 是可以解密本地数据库的, 就是设备得 root
malusama
343 天前
企业微信也有 api 直接获取消息的啊?
brightrystal
343 天前
@malusama 企业微信的 api 我知道,但是得收费,我的目标群体大部分都是个体户,让人家掏这个钱不太现实
phx1
343 天前
musi
343 天前
@csulyb #9 我看我自己和我朋友的聊天记录侵犯了你的隐私?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1025024

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX