做千万级数据处理的单机配置求助

2020-06-02 11:56:40 +08:00
 yida1313
想趁着 618 配个新电脑,做一些数据处理,一般一次的数据量在几百万到一千万级,然后做去重和统计,后期可能还会做一点简单的分析。 预算 1 万以内。(内部环境,无法用外网云计算方式。。。)
求推荐下配置。我目前的打算是 3800X+丐版 X570+掠食者 32G+三星 EVO+西数紫盘

再就是有啥快速导入数据的方法么?一大堆 Excel 往 MYSQL 里导,每个 Excel 大概 3-5 万条数据,28 列数据项
用的 JAVA,目前用 JDBC 拼 insert,一次写入 10 条,导一次需要 40 多个小时。。。

谢谢大家!!
1848 次点击
所在节点    问与答
12 条回复
malusama
2020-06-02 12:22:17 +08:00
千万啥机器不能跑...
你写入咋那么慢... 批量写入一次写更多条效率更高吧...测试一般都是一次插入一万条..
dlsflh
2020-06-02 12:23:33 +08:00
我完全外行,请教一下为啥不用 pandas 呢?
yeqizhang
2020-06-02 12:24:40 +08:00
navicat 不是也可以导入吗
tomczhen
2020-06-02 12:27:33 +08:00
excel 另存 cvs,然后 LOAD DATA INFILE
dexterzzz
2020-06-02 12:30:44 +08:00
8g 内存,power bi 亿级数据多表关联计算
phx1
2020-06-02 13:07:13 +08:00
为啥你的写入这么慢
liprais
2020-06-02 13:13:32 +08:00
16 核心 64g 内存足够了,用 pyspark 或者 pandas
wyfbest
2020-06-02 13:13:42 +08:00
excel 用 python 导入有很多现成工具吧
micean
2020-06-02 13:24:02 +08:00
LOAD DATA INFILE '你的 csv 文件路径' IGNORE
INTO TABLE 表名
FIELDS TERMINATED BY '分隔符'
LINES TERMINATED BY '换行符'
yida1313
2020-06-02 13:29:46 +08:00
@malusama 分别打点测了下各个环节的运行时间,发现主要慢在数据库 insert 操作上,读 Excel 基本几秒就完事了。
我试试你说的这个方法,一次写入 1000 条先试试。。。
yida1313
2020-06-02 14:49:16 +08:00
@malusama
改了下代码,测试了几次,发现我现在用的台式机一次插入 500 条比较快。
现在目测 2 小时就能全部插入完。。。。感谢指导~
jakson
2020-06-02 14:52:33 +08:00
@yida1313 按照 micean 的方法就行,参考一下这篇文章吧,会快很多

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/677792

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX