请教大家一个方案,关于 TCP 流量识别以及匹配。

264 天前
 rev1si0n

(以下是情况假设)有一台电脑,我设置了 wireshark 只抓浏览器的包,随后我通过浏览器访问 baidu.com ,抓到了访问百度首页的所有数据包。随后,设置 wireshark 抓取电脑全局流量,并随机使用电脑上安装的软件,其中我可能会访问 baidu.com 。最终,我想通过这个浏览器访问百度的流量包(全局流量的子集),解析出所有 TCP 包的时间大小相对时间协议等,在全局流量中通过滑动窗口去匹配哪个时间段访问了百度首页。这可能很麻烦,因为某些包可能并不一定会发出,其次,因为中间可能掺杂着其他流量,所以对于访问百度首页的数据包还要进行适当的 X 轴拉伸匹配。在此请教大家一下有没有什么好的实现方法或者类似的方案。

3411 次点击
所在节点    程序员
53 条回复
DefoliationM
264 天前
tls 加密的东西你怎么匹配,aead 加密后的数据都是随机字节流,没有特征,sni 倒是能匹配,不过现在也有 esni 了。
Jirajine
264 天前
能说说你的目的是什么吗?看主贴感觉像 GFW 的工作人员。

@liuhan907 #18 加密仅仅只是加密,一些其他信息,比如时序特征是单纯加密无法掩盖的。比如你用过 n 层加密代理发布消息,攻击者就可能通过你消息发布的时间、字数来定位到发送消息的人,一些专注安全的 IM 会自动加 padding ;再比如主流浏览器的建立 tls 连接时发送的握手包非常固定,当这个包被另一个 tls 隧道传输时,可以很容易识别出特征来,也就是 tls in tls 识别。
rrfeng
264 天前
我很好奇楼上各位是怎么读懂 op 想干什么的……明显 op 问了个 X-Y problem
sampeng
264 天前
我也没太搞懂。唯一我只知道像 GFW 一样的做流量识别,但我不觉得从来没研究这一块只是知道 tcp 的人能搞的出来的。那 GFW 就是个笑话了。。在不讨论 GFW 一样牛逼的流量识别算法下,按朴素的技术理解,普通大众看到的 tls 数据完全是无序随机的。
liuhan907
264 天前
@Jirajine 实别当然是能识别的出来,但是也只能检测出流量特征而不能检查内容特征。不然 GFW 早八百年就完美无缺了
sampeng
264 天前
@rrfeng 标题啊。。。TCP 的特征识别。。。
fano
263 天前
@rrfeng 谢谢,学习到了新名词 X-Y problem
rrfeng
263 天前
@sampeng 姑且理解为「从流量中识别某个网站」

http 不说了,https 也根本不用学习特征的…… sni 会暴露一切。虽然只能识别到「域名」维度,但「页面」维度无论如何也无能为力了。

所以要怎么做取决于要做什么,只做阻断的话干嘛不搞 dns 。
rekulas
263 天前
@rrfeng 94 所以我上面问他到底想做啥

光看描述,感觉就像为 gfw 或网络审查服务的工作 , 这种不适合在论坛讨论 毕竟可能用于不太好的用途
Jirajine
263 天前
@liuhan907 #25 其实是能的,把过滤放到可信终端进行,不可信终端不可联网就行了,可以在密码学意义上保证其无法绕过。
只是没有必要,显然现在的 GFW 工作的很符合它的预期。
liuhan907
263 天前
@Jirajine 那就是白名单,或者干脆在终端装 app 了。那还何谈密码学,那是社工。
hefish
263 天前
OP 考虑的非常全面。感谢 OP 的研究。
Jirajine
263 天前
@liuhan907 #31 可信终端指的是基于 trusted computing/attestation ,一个没有权限经过签名的系统除非你 exploit 了不然就是密码学意义上的无法绕过。
deorth
263 天前
得加钱
liuhan907
263 天前
@Jirajine 那终究还是要在终端机器上做手脚,无非就是现在 Android bootloader 加现在 Google 商店那套验证。但那就已经是完全和现在的网络环境隔离开了,没有什么可行性。
neoblackcap
263 天前
@rekulas 也不一定是 GFW ,很多企业防火墙都要提供审计功能。相当于识别你系统的流量,检测打工人是否在一直工作,有没有摸鱼呗
iceheart
263 天前
这就是墙的需求吧。
如果只抓浏览器请求,ssl 用 sni ,http 抓头就够了
cczh678
263 天前
想要做应用识别、用户行为识别?
rev1si0n
263 天前
@rrfeng
@Jirajine
@sampeng
@rekulas
@cczh678 没错,用途就是 38 楼所说,用户行为识别,但并不是面对打工人以及隐私用途,题只是举例去描述,做过的人看到也能大差不差理解出来做的是什么。
@neoblackcap
rev1si0n
263 天前
@fano 谢谢哥,我这就去看看。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1021138

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX