关于删除重复项

2022-08-01 09:52:01 +08:00
 yagamisam
有 a,b 2 个文本文件,a 包含 b 。有没有方便的办法生成 c ,c 的内容是 a,b 不相同的部分。
找到的一些去重方法都会保留唯一值。
1204 次点击
所在节点    问与答
8 条回复
haodingzan
2022-08-01 10:00:36 +08:00
曲线救国,逐行查找,匹配成功后替换为空值,最后再把所有空行删除
totoro625
2022-08-01 10:02:08 +08:00
可以丢到 Excel 里面吗 A/B 分别丢 A 列 B 列,全选之后高亮重复项,再对 A/B 列筛选两次未高亮的部分,就是 C 了
shinsekai
2022-08-01 10:09:43 +08:00
如何定义重复?按字节?按字符?按句子?按段落?
xaplux
2022-08-01 10:13:08 +08:00
可以把你认为不方便的办法列一下
bcllemon
2022-08-01 11:07:42 +08:00
diff a b -side-by-side --suppress-common-lines
wxf666
2022-08-01 11:49:50 +08:00
假设按行分割,不要求按顺序输出的话:

sort a b | uniq -u > c
neteroster
2022-08-01 12:17:06 +08:00
丢 Python 求差集。
kkeep
2022-08-01 12:49:52 +08:00
A not in B ,A x B

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/869868

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX