2 个 exlcel 千万条手机号,怎么合并去重呢?

2021-05-02 22:24:46 +08:00
 jry

用 mysql 、es 、mongodb 、其它哪一种合适?

2416 次点击
所在节点    问与答
15 条回复
heyjei
2021-05-02 22:32:36 +08:00
linux 命令中的 sort | uniq 是最简单的方案。如果是 Windows, 安装了 git bash,应该附带了这两个命令
wellsc
2021-05-02 22:36:14 +08:00
一楼审题了吗
koast
2021-05-02 23:11:36 +08:00
其实一楼没毛病啊,只要打开这两个 excel,文件,导出为 csv,然后 sort|uniq 就行了,无非就是多等一会的事情。几乎不需要考虑什么...
inhd
2021-05-03 00:07:18 +08:00
Baboonowen
2021-05-03 00:22:53 +08:00
Excel 自带去重。。一键去重。。
dzdh
2021-05-03 00:31:59 +08:00
需要经常使用,找个数据库。
就用一次,145 楼都可
czfy
2021-05-03 00:38:18 +08:00
我好奇这千万条手机号是哪里来的
HankLu
2021-05-03 00:43:54 +08:00
@czfy 你懂得
xupefei
2021-05-03 01:17:22 +08:00
Sort uniq 性能肯定不如直接去重啊。
你这数据量随便写个脚本用 hashmap 跑一遍就行了,不需要数据库。
renmu123
2021-05-03 07:59:15 +08:00
然后发现最大的问题是从 xlsx 读取这个千万条数据
matrix67
2021-05-03 09:01:52 +08:00
@koast #3 对 一楼没毛病,二楼是要导出都写在步骤里


@czfy #7 社工库?黑产警告!!
8e47e42
2021-05-03 11:09:35 +08:00
@xupefei sort | unique = O(n log n)
Hash 最差可能是 O(n^2)最好可能是 O(n)
sort 的内存占用远好于 hashmap
因此不一定 hash 更优
drawstar
2021-05-04 07:17:11 +08:00
@Baboonowen 千万条的 excel 估计打不开吧
jry
2021-05-04 20:27:54 +08:00
还要得到新旧合并、新旧合并不含重复,重复,三分数据。
BQsummer
2021-05-08 18:02:09 +08:00
看标题我还以为是算法题呢,用 bitmap 处理[doge]

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/774683

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX