大数据到底是干嘛的?正在做大数据项目但仍然一头雾水中……

2023-08-19 15:42:28 +08:00
 WangLiCha

是这样的,我是前端开发,然后公司内部调动新成立了一个开发大数据平台的组,然后我就被调过去了,只是以一个普通前端开发的身份,我本身也没做过任何大数据相关的工作,更没有过相关的知识储备。

然后就发现海量的陌生概念和陌生名词出现在了我的视野里,什么数据仓库,数据域,数据湖,数据市集,数据指标等等等等。毕竟我是前端开发,不了解后台的实际实现方式只是照着需求硬开发也能做出能交差的产品来,但是我还是不知道我到底做了个啥……

4790 次点击
所在节点    程序员
42 条回复
pengtdyd
2023-08-19 18:28:10 +08:00
很多公司所有的数据加起来都没 1TB ,就跟风上马大数据,这种现象简直不要太多。
Zephania
2023-08-19 18:51:38 +08:00
有啥好喷的,不正是有这些概念,程序员们才有一口饭吃吗
lingalonely
2023-08-19 18:52:45 +08:00
大数据相关的前端工作,90%和之前的没啥不同,剩下的 10%就是报表,图表,分析结果输出
nanvon
2023-08-19 19:05:01 +08:00
数据量特别大、从这些数据中分析、得出 xxxx 结论
max1
2023-08-19 19:20:23 +08:00
行业相关,我司是做异常检测的,ELK ,数据清洗后,输出标准化数据,给模型去跑,检测人不能发现的异常。
myesn
2023-08-19 19:57:07 +08:00
虽然我没接触过,不过我的感觉和你一样,但我思考片刻后,我觉得如果直白的说数据多、很多、非常多、超级多、超级无敌多,这样听起来好像不容易骗到钱啊,但是我换一种牛逼的说法,让人觉得哇真高端,真牛逼,我一定要投资你,反正,就像元宇宙一样,把词语尽量高端化复杂化,这样才能发财吧。

这些都是门外汉的个人片面见解,不知道事实如否如此呢?
lbbff
2023-08-19 20:32:16 +08:00
楼上的应该都没做过大数据。其实大数据就是在数据量大,非结构化数据多,数据价值密度低场景下的一种解决方案。遇到这种场景,哪怕是自己从头设计开发,最终也会发展出现在的大数据工具与理论,就是为了更方便管理,更方便分析,更能产生价值。可以设想一下有 10TB 服务器 nginx 日志,如何应对每天给项目经理提供一份 URI 使用情况
WangLiCha
2023-08-19 21:15:24 +08:00
@lbbff 那可不可以这么理解,大数据就是把海量的原始数据从原始数据库里整理转移到新数据库里方便使用和查看的这么一种业务
kingjpa
2023-08-19 21:37:12 +08:00
curd 后先计算再展示,仅此而已
lbbff
2023-08-19 21:40:06 +08:00
@WangLiCha 这个是大数据需要处理的对象之一,一般都会用到常规数据库里面存储的业务数据,再加上服务产生的日志,边缘设备( app 上报)的日志,放在一起管理和分析,最后的结果可能是给领导汇报的报表,客户看的自己使用情况,产品经理看的分析,运营需要的用户画像,以及反馈给业务系统本身。这些取决于业务形态
snw
2023-08-19 22:04:32 +08:00
@WangLiCha
普通的数据仓库大多是二维表的数据库,和大数据没直接关系,即使有关也是从大数据源(比如数据湖)里抽取并整理之后的少量数据,处于大数据项目偏下游位置。至于数据中台,处在比数据仓库更下游的位置,只比报表制作者和报表使用者稍上面一些。

真正接触大数据上游的人大多都是数据科学家/数据工程师+IT ,写代码敲命令居多,不太需要 GUI 。

至于你问大数据有什么特别的,你可以看一下大数据的基本特征,没有哪条能用常见数据库来达成。
* 量 volume: TB 只是基础单位,上到 PB EB 的数据量,你用普通通用数据库能应付吗?
* 种类 variety: 结构化数据容易用通用数据库处理,给一堆非结构化数据你怎么处理呢?
* 速度 velocity: 比如 1 个车间有 100 台机器,每台机器有 100 个传感器,每个传感器以 1kHz 采样,那么每秒就有 1000 万个采样点,你用传统数据库每秒 insert 1000 万行数据吗?当然 PostgreSQL 可能勉强能达到,但过段时间你有 10 个车间,传感器采样率提高到了 16kHz ,你继续堆数据库硬件吗?
* 可信度 veracity: 传统数据库里的公司内部数据,DBA 很容易管理数据质量,但当你的爬虫从互联网上爬来一大堆乱七八糟的数据时,你怎样从中提取有效信息做成可靠的报告?
wheat0r
2023-08-19 23:41:51 +08:00
技术上的大数据和销售上的大数据不是同一种东西
EminemW
2023-08-20 00:12:15 +08:00
顺便问一下各位大佬,介绍大数据系统设计思路的文章推荐,能详细到底层数据库选型,数据表设计,数据分层设计更好
Betsy
2023-08-20 10:10:28 +08:00
这产品定位像极了我前司的产品,后来部门解散了…
qiumaoyuan
2023-08-20 11:12:18 +08:00
就是发明各种词汇的,他们也不知道自己在干嘛。
jinsongzhao
2023-08-20 12:11:55 +08:00
大叔局,涵盖了很多内容,尤其最近小鲜肉快速加入,淘汰了大量老东西,所以关键还是看要解决什么问题,再选择合适的手段,否则就像李彦宏说的,很多 APP 都要重头写过了。
xuanbg
2023-08-20 16:20:18 +08:00
大数据最大的作用就是在你不知道因果关系的领域,揭示相关性给你看,以供你去分析其中的因果关系。
metalvest
2023-08-20 16:47:20 +08:00
最典型的应用就是电商网站通过大数据对用户画像作智能推荐。
metalvest
2023-08-20 16:49:01 +08:00
当你觉得 b 站或者淘宝监听了你的对话的时候,其实就是大数据在起作用。
abcbuzhiming
2023-08-21 00:12:25 +08:00
当数据量到达一定级别的时候,可以从中挖掘出规律来预测未来,这就是大数据。比如说我们收集既往的天气数据加以总结并训练模型,就可以用来预测未来天气。再比如我们可以通过分析 20-30 岁年龄的淘宝用户最近 10 年买的衣服款式的变迁,分析出明年可能流行哪一款。

这里面涉及的海量数据远超传统关系数据库能处理的数量级,所以用了 [大数据] 这个专门的词语来形容这个领域,不过传统关系数据库厂商也不是吃素的,它们也在演进自己的技术系统追上这个时代,总之,其实还是在处理数据,只是这个数据的量级特别大而已。

最后,其实很多公司不需要大数据,因为他们的数据量实在太可怜了。连 1 亿都没有,却说自己在搞大数据。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/966674

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX