用 mysql 、es 、mongodb 、其它哪一种合适?
1
heyjei 2021-05-02 22:32:36 +08:00
linux 命令中的 sort | uniq 是最简单的方案。如果是 Windows, 安装了 git bash,应该附带了这两个命令
|
2
wellsc 2021-05-02 22:36:14 +08:00 via iPhone 1
一楼审题了吗
|
3
koast 2021-05-02 23:11:36 +08:00 via Android 1
其实一楼没毛病啊,只要打开这两个 excel,文件,导出为 csv,然后 sort|uniq 就行了,无非就是多等一会的事情。几乎不需要考虑什么...
|
4
inhd 2021-05-03 00:07:18 +08:00 6
|
5
Baboonowen 2021-05-03 00:22:53 +08:00 via Android
Excel 自带去重。。一键去重。。
|
6
dzdh 2021-05-03 00:31:59 +08:00
需要经常使用,找个数据库。
就用一次,145 楼都可 |
7
czfy 2021-05-03 00:38:18 +08:00
我好奇这千万条手机号是哪里来的
|
9
xupefei 2021-05-03 01:17:22 +08:00 via iPhone 1
Sort uniq 性能肯定不如直接去重啊。
你这数据量随便写个脚本用 hashmap 跑一遍就行了,不需要数据库。 |
10
renmu123 2021-05-03 07:59:15 +08:00 via Android
然后发现最大的问题是从 xlsx 读取这个千万条数据
|
12
8e47e42 2021-05-03 11:09:35 +08:00 via iPhone
|
13
drawstar 2021-05-04 07:17:11 +08:00
@Baboonowen 千万条的 excel 估计打不开吧
|
14
jry OP 还要得到新旧合并、新旧合并不含重复,重复,三分数据。
|
15
BQsummer 2021-05-08 18:02:09 +08:00
看标题我还以为是算法题呢,用 bitmap 处理[doge]
|