大数据领域的各种概念从技术角度思考是不是一种伪技术?

262 天前
 LeeReamond

如果有利益相关,首先抱歉,以下只是个人想法。

最近工作需要在 B 站狂看大数据相关的网课,里面将具体实践之前先给你来一大套概念,什么“什么是数据库,什么是数据仓库”,“数据仓库有什么优势”,“ELT 和 ETL 的区别”,“数据治理的好处”等等,看的头都要大,问题是你这有什么好玩概念的,在我们开发人员看来不就是你提了一个数据分析需求然后我去把它实现的过程,数据不就是采集、存储、分析,这是自然而然的过程,难道还能反过来?就这还能新搞个概念在大学里讲好几个小时车轱辘话。。。

问题是,我想起来不光是网课这么讲,我当初在学校学过大数据的课也是这么讲的,只不过当时没在意细节。。。

我看视频的时候真的怀疑,这些年吹得这么火的大数据生态是不是有很大的伪技术成分。当然不是说 hadoop 和 hdfs 生态这些东西不够技术,它们当然足够深入复杂,且有良好应用,但问题在于,真正的实践工程师在某些专业视角里看压根就不是做大数据的,起了一大堆名,偏重实务管理的叫你这是“数据管理工程师”,然后上面还有一堆什么“信息管理工程师”之类的,人家负责更高等级的抽象,反正别人怎么想我不知道,我理解就是产生了一大批实际上没啥技术的,但是谈技术能谈得头头是道的“技术管理人员”

要我说各个新兴技术都有炒作成分,社会层面产生需求,但是实际落实跟不上,然后产生出一大批大儒辩经来填充,即使没有炒作,各种技术也确实有高层抽象概念,像 OSI 有七层模型,WEB 技术有 MVC 和 MVVM 模型,学技术的同时学点概念也挺好。再进一步的稍微过分一点的,比如深度学习领域把 MAX ( 0 )起个名叫 ReLU ,改了名以后瞬间高大上起来,因为确实好用大家也就忍了,我是真的感觉大数据领域这些概念纯粹是在那辩经。。。讲课的时候遇到个老师快速跳过了那还好,万一遇到个实务没讲多少,天天在那给你掰扯概念的老师,不知道别人怎么样,我反正是受不了了。

2037 次点击
所在节点    程序员
22 条回复
Belmode
262 天前
你说的那些“概念”、“伪技术”,其实就是前人走过的路,他们把自己的经验、知识、技巧抽象,然后进行规范化、标准化后的产物。

我觉得不论做什么,都是谋定而后动,肯定先有理论支持,然后才去实现,最终才能解决问题。
8355
262 天前
我不是很懂,按照我的理解就是把一些普通关系性数据库里面因为性能和侧重点不同导致运行不了的 sql 放到一个对此类 sql 有针对性优化的数据库里 group by 查出结果存到对应的表里,通过一些配置可以每天自动运行计算并增量存储,这部分的业务侧重点在于机器性能和数据库本身的优化,一般业务就是这样的用法。

一些数据量极大且业务都是围绕数据本身展开业务的公司可能对这部分开发人员有很大需求,例如滴滴和阿里电商等等,可以对订单和用户使用习惯做分析,可以根据一些规则形成模型等等,根据历史数据做分析或着预警扩容依据,有一定价值但是应该是没那么复杂和神秘的。
yKXSkKoR8I1RcxaS
262 天前
不这样怎么骗投资人的钱?怎么应付领导?怎么展现自己的牛逼?
chendy
262 天前
不是,但是也不是很高深,其实都是为了解决某些问题,使用的某些手段,然后起个名字,方便沟通理解
可以理解为广义的设计模式
CEBBCAT
262 天前
可不可以展开具体讲讲?另外 B 站网课那些东西,质量也是参差不齐吧?可能很多非专业教师(即无学术基础)的人在讲那些东西?
dog82
262 天前
感觉最核心的技术概念是 map-reduce
suuuch
262 天前
我也发表下个人的看法:
在某种意义上来说,各种技术方案、编程语言,都是在应对人。计算机本身并不关心这些二进制的是什么,换言之任何技术方案、编程语言、术语、岗位都是在解决人的问题。

纯粹从技术上去考虑这些,确实是没什么区别的,每种方案都可以完成目标。区别在于这些方案对应的其它成本,比如机器成本,人力成本,时间成本这些显性成本。还有一些隐性成本,比如沟通成本之类的。

数据仓库这些东西,确实就是 收集数据 -> 整理数据 -> 输出数据,这个链路。更抽象点的就是数据的输入和输出。
抽象到这里的时候,所有的程序、系统都可以抽象的理解为 数据的输入和输出。



至于提到的其它问题:

“什么是数据库,什么是数据仓库”:数据库是对应软件系统,数据仓库是一种概念上的,并不对应到具体软件上。

“数据仓库有什么优势”:数据仓库的优势取决于对比系统,业务系统要求高并发,数据仓库要求高吞吐量。

“ELT 和 ETL 的区别”:这两者的区别在于数据处理数据速度和数据传输速度之间的关系,决定采用哪种方案看场景。


“数据治理的好处”:数据治理也是特定场景下的,互联网里面确实不多。传统企业里面多,有些传统企业里面的系统有 dephi ,c#,java 诸多版本,整个建设周期可能比程序员的生命周期都长,各种奇奇怪怪的数据和定义,这种背景下数据治理的好处才能被切身体会出来。
cs1024
262 天前
是的...

大数据平台、数据中台 = 弄个很大的数据库
数据治理 = 给数据定个编码规则,顺便看看数据有没有缺失,乱码,格式错误
大数据分析 = 统计分析,打标签、分类
其实都是很简单的东西,包装一下就显得高大上,

LZ 说的另一方面是从业人员素质,我确实遇到过很多连基础的 SQL 都写不明白的人自称大数据专家...
cyspy
262 天前
这些概念其实本质上也是在封装、抽象、解耦、复用,优势只有在用户多、数据多的时候才能体现出来,小作坊或者直接在网上学确实搞不懂
jurassic2long
262 天前
是的,你要学技术的话这些概念没卵用,但是你学好技术后,要把自己卖个好价钱,就得学会这一套概念。
tool2d
262 天前
不管什么项目,先运行,编译,调试。最后再折腾概念。

先讲概念,观众听的都是云里雾里的,Talk is cheap. Show me the code.
Sosocould
262 天前
我喜欢看 Hacker News ,因为里面会有些 blog 文章,讨论技术背后的哲学意义和业务意义,有时会为了更方便诠释这些非技术意义,开发新的工具,或创造一个新的概念。
例如“火焰图”( Flame Graph ),花里胡哨的,没有新的技术,但其实是很好且直观的性能分析工具。
例如人工智能的“幻觉”( Hallucination ),本来是一个心理学的概念,被借用来解释由人工智能生成的、含有貌似事实的虚假或误导性资讯的回应。
又例如“涌现”( Emergence ),这是一个涵盖生物学、社会学、哲学、人工智能等多个领域的复杂系统概念,指众多简单小个体交互作用之后产生一种具有新特征的大个体,因为凯文·凯利《失控》流行过一阵子,目前依然是人工智能领域需要探索的现象。当然,你可能会觉得这是神棍理论。
……
我很失望看到中文世界的程序员总是沉迷于某种“纯 code 才是技术”的奇怪认知,啊哈?那也太可取代了吧,你绝逼干不过 ChatGPT 们。
纯代码不是最底层的技术,思想才是。代码只是实现路径。
以及,所有的东西,都是因为有人的存在,才有意义。事物与人交互,才是它的终极意义。
sentinelK
262 天前
不一定。因为这些名词并不是完全没有底层技术基础。
或者说,和你是否承认这些规范、模式的价值有关。

不可否认,这些名词有很多个维度的作用。
1 、争夺定义权。也就是营销、市场属性。
2 、为了加强沟通效率。
3 、为了凭空创造需求以用于提升 KPI 。
等等

但这些名词并不是完全没有意义。
比如最明显的:中台 ≈ 为了实现企业核心对于产品、数据的绝对控制,以及产品之间的解耦并实现标准化、最大程度的复用,从而试图构建一个标准的数据、业务加工的中游产品线。

你能说中台这个概念一无是处,没有核心基础以及需求土壤么?完全不能。
你也不能说中台这个名词无用,因为他确实极大的提高了沟通效率。
但中台也确实再实际业务中,没有起到立竿见影的正向收益。

所以关键取决于你的视角和位置。
Rickkkkkkk
262 天前
同一个概念换一种说法当然是有意义的.
laminux29
262 天前
国内这一块的教育,缺乏对历史发展的讲解,导致大家对这一块内容难以理解。

数据库,很早以前,只是用来操作少量的数据,表现为,库少,表少,数据少。这些数据的量,最多也就是单机物理内存的几倍而已,超出这个量,会进行业务拆分,把新数据移动到新的物理服务器上。

但后来有些需要对大量数据,进行连续分析的业务,数据量巨大,已经不是物理内存这种尺度能够拿来衡量的了,就算磁盘顺序读写一次也要几小时到几天。这种业务,就需要数据库理论,开一个专门的大数据分支,来对这种场景进行专门的分析与优化处理了。
moyi97
262 天前
这些东西的发展还是有规律的,包括说的数据仓库,也是为了应对繁杂的业务流程来建立的,就像 15 楼老哥说的那样,是为了应对更多的数据发展而来的,大概在 2015 年开始国内流行相关技术,然后对应的历史是当时 ibm 小型机和高端存储的昂贵价格,国家推动去什么什么….忘记叫啥了. 然后数据仓库的理论是根据事务性数据库理论演化而来,理论大概是从第 1 ,2 ,3 范氏到后面的维度建模(星型模型,雪花模型)还有个好像叫实体建模?记不太清了. 当时最火的国内书籍是阿里巴巴的大数据之路…
vincent7245
261 天前
个人觉得这个和公司规模有关,那些概念都是在公司达到一定规模以后,各部门,各系统分工协作的时候才会体现出优势,一个只有几万用户的小公司,用 mysql 加 python 脚本都能解决数据分析的问题,这些概念当然没用了
Mondoz
261 天前
@moyi97 去 ioe ,阿里搞出来的概念
dododada
261 天前
其实最大的问题在于学习的时候,或者说各种课程讲的那些内容,理论和实践脱节了。

跟学高代一样,矩阵就是矩阵,那矩阵在现实中的映射是个啥,变幻之后的逻辑是什么,具体的应用示例是什么,国内的教程没讲,太抽象了,没头没脑。

大数据这套东西,如果要理论结合实践的话,实践成本还蛮高的。现在招一个能把数仓玩的很溜的,价钱还是蛮贵的。
UIXX
261 天前
1. 这些年吹得这么火的大数据生态是不是有很大的伪技术成分

对于“是否伪技术”、”伪技术成分多少“的判断是主观的,因人而异的。
在数理统计相关的学术人员看,所有大数据工程都是统计方法论的一种实现,数据存储与清洗,统计分析与预测都是老生常谈的东西,机器学习也不过是老瓶装新酒。
在常年 CRUD 的工程人员看,hadoop 刚出来的时候就像黑科技,技术成分很高,但刨根问底,估计也只能回答“三四层楼那么高”,大部分人是难以准确评估其技术内涵的。
而管理人员,就更难界定大数据工程各个层次的需求了...

这些人看大数据的视角不同,最终感受也不一样。

2. 各个新兴技术都有炒作成分

有能的技术很多,但没有炒作的技术压根“新兴”不起来,现在流行的东西在当年哪个没有布道师?

3. 具体实践之前先给你来一大套概念,大数据领域这些概念纯粹是在那辩经

有的是教育人员的水平问题,有的是受教育目标人群错位。
教过一些纯小白,事实证明有的人就适合“车轱辘话”来适配其 CPU 运转速度,无摩擦小车这种理想模型都理解不了还怎么上实际案例。零基础新手才是教育类视频主流观众。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1022597

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX