有没有人研究过在抽样数据文本中进行数据隐写?

2021-06-25 09:49:19 +08:00
 matepi

简化设定

比如给出一个 100x1024 字节长度的字符串

已知其中每 100 个字节中的前 96 个字节为有效数据负荷,最后 4 个字节为预留可以随意使用无数据负荷的字节。

我们需要在借助此无负荷部分,此 100k 字节长的字符串中,混入一个“20 字节长的隐匿数据”

并同时

1 、在数据以 100 字节为边界,拆分为 1024 组百长度的字符串;且取出 1024 组中的任意多组后,能尽最大可能量地恢复出“20 字节长的隐匿数据”

2 、尽量减小被隐匿加入的数据,在组间的可简单文本观测重复性,减少隐匿数据的被定位发现的可能

3 、研究当预留字节数由 4 改为 2 时的算法影响;以及取出组数逐步减小时,对可恢复性的影响

这是数据隐写?但可能又进一步地涉及到数据抽样、有损的情况。在文本中的隐写,与常见的图像音频中的隐写术也有很大不同。

应该去看哪些方向的文章?

1477 次点击
所在节点    信息安全
4 条回复
liuxu
2021-06-25 10:52:33 +08:00
。。。。

我来给楼主重新理一下需求。。

给定 100 字节空间,每 4 个字节为一组,将 20 字节分组随机存储到空间后,如何保证占用最小空间并顺序取出不可读,且随机取出部分数据后,根据存储算法能最大恢复这 20 字节源数据

改成 2 字节为一组存储,对比和 4 个字节为一组有什么区别

给出以上算法及解释


建议楼主去看看加密解密中的软件加壳混淆和脱壳技术
misdake
2021-06-25 11:08:09 +08:00
对于“取出 1024 组中的任意多组”这件事,是否知道取出的是第几组这个信息?
RecursiveG
2021-06-25 11:11:00 +08:00
你有两个问题,“隐藏数据使得不可分辨”是隐写。“抽样后恢复数据”是错误纠正码。
有一个 20B 的 消息,用某种 Error Correction Code 编码编码到 4K,再用某种隐写技术混入你的字符串里。
matepi
2021-06-25 11:33:10 +08:00
@misdake 不知道

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/785678

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX