有做数据处理工作的大佬?请指导下小弟。

2018-11-19 21:41:39 +08:00
 YoungBalance

我在家初创公司工作,做着数据处理的工作。公司其他人从外面采取数据回来,我就将其进行分类和汇总。但只不过在文件夹里剪切复制数据、然后统计在 excel 表而已,算不上数据处理的有含量技术。 现在领导让我自由地处理和管理这些数据,但我对数据处理管理这方面毫无经验、也不知从哪下手。我想知道做数据处理的大佬们从开始是怎样去做数据处理、从哪获取数据管理知识和数据处理管理的工具? 小弟先在此谢过各位大佬了。握拳

2292 次点击
所在节点    问与答
19 条回复
fox1751
2018-11-19 23:26:48 +08:00
多大数据量的
liprais
2018-11-19 23:28:57 +08:00
你处理完了这些数据被拿去干啥了
xmadi
2018-11-19 23:37:55 +08:00
数据到手 首先要做的是保存原始数据 然后再清洗整理 然后把清洗后数据入到库 可以是 mysql 或者其他各种数据仓库 最后按照需求从数据仓库里面拿数据 进行分析统计什么的
imn1
2018-11-20 00:42:40 +08:00
所有数据分析都是先学交叉分析的,简单讲就是交并差
最简单的工具,数据量小就是 excel,数据量大就是 SQL,然后才是编程
YoungBalance
2018-11-20 07:35:02 +08:00
@fox1751 不多,十几 G 吧
YoungBalance
2018-11-20 07:35:32 +08:00
@liprais 数据都拿去给机器学习了
YoungBalance
2018-11-20 07:39:45 +08:00
@xmadi 好的,我先从数据库入手看看
YoungBalance
2018-11-20 07:43:12 +08:00
@imn1 交叉分析,我去了解下
myhot21
2018-11-20 08:00:55 +08:00
把你剪切复制的工作用代码实现
YoungBalance
2018-11-20 08:32:25 +08:00
YoungBalance
2018-11-20 08:35:44 +08:00
@myhot21 平时用 python 写脚本做这些工作,但还是觉得远远不够
nl101531
2018-11-20 09:03:23 +08:00
hdfs+hive ?
YoungBalance
2018-11-20 09:15:19 +08:00
@nl101531 用 Hadoop 去处理这十几 G 数据,是否大刀小用?
nl101531
2018-11-20 09:22:57 +08:00
@YoungBalance 还好吧。。。如果你对大数据处理感兴趣可以搞一下
YoungBalance
2018-11-20 09:28:04 +08:00
@nl101531 好的,我试着搞搞
yuikns
2018-11-20 09:48:04 +08:00
看需不需要横向扩展。比如可以预期的五年后,数据量是 100G 还是 10T 以上。前者的话好好学习 postgres 会很爽的,后者可以预先学下 spark 工具
YoungBalance
2018-11-20 10:46:23 +08:00
@yuikns 最近确实想深入 postgresql,多谢了
yuikns
2018-11-20 11:00:30 +08:00
@YoungBalance 以前上课时候老师和我们说,什么叫做 bigdata 呢?其实并没有什么学术上定义,非要来个,数据之大,一台机器放不下。简单的 select join 下还是 psql 单机无敌。以后要是大了也可以塞 cockroach 去 https://www.cockroachlabs.com 。这是个分布式数据库,兼容 psql 协议,也可以做 spark 数据源。只有在必须要大数据时候再用大数据。否则就是糊弄下投资人的。
YoungBalance
2018-11-20 11:23:07 +08:00
@yuikns 现在的我还是狭义认为 postgresql 是个存储数据库的想法。但我想更加知道 postgresql 在数据挖掘、数据处理方面的知识,该从何处入手?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/509416

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX