要对单个 6.20TB 的超大 csv 文件保持顺序的情况下进行去除重复行，有什么好思路？显然不可能加载进内存

125 天前

drymonfidelia

10884 次点击

所在节点

101 条回复

Keuin

119 天前

@Keuin 没有保序，bugfix 一下。假设 csv 有 4 列，把 sort 替换成`sort -u -t, -k1,4 | sort -t, -k5`，把结尾的 uniq 删掉，变成：

```shell
awk '{print $0","NR}' input | sort -u -t, -k1,4 | sort -t, -k5 | sed -E 's/,[0-9]+$//' | uniq
```
不能假设列数的话，受这几个 shell 工具的限制，需要换一个没有出现过的字符做分隔符

第 6 页／共 6 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1046023

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.