请专业人士回答下,何谓大数据,为啥我看的那么玄?

2015-03-08 11:58:27 +08:00
 powtop

看两会又扯大数据了,估计领导们也会扯扯,但是目前 我等土鳖根本不知道大数据,大数据如何落地,需要哪些技术,有什么开源产品,可有大神普及下,俺也好能和领导哈哈牛逼!

3135 次点击
所在节点    问与答
35 条回复
pfitsen9
2015-03-08 12:10:38 +08:00
算命,看相可能算大数据的一种
longquanwo
2015-03-08 12:19:45 +08:00
你去看看聚合数据 就知道了
laoyuan
2015-03-08 12:21:50 +08:00
大数据就是以前淘宝文胸AB卖得多现在CD卖的多
chchwy
2015-03-08 12:24:22 +08:00
可以看看翟本喬博士的視頻:大數據的理念與應用
<amp-youtube data-videoid="OQQO08EX6TM" layout="responsive" width="480" height="270"></amp-youtube>

這是逢甲大學的通識課程講座,沒基礎的人也能聽懂的。
yangqi
2015-03-08 12:25:33 +08:00
@longquanwo 聚合那个根本不叫大数据,就是普通的数据api整合而已,和大数据根本不是一回事
longquanwo
2015-03-08 12:34:58 +08:00
@yangqi 我刚才看了上面的视频,意思就说聚合数据只是采集了比较大或者多的数据,大数据还需要包含处理数据和分析数据,调用数据等这些?
cxshun
2015-03-08 12:35:35 +08:00
现在基本上什么公司都非要扯上大数据,就连我前公司,一个做小图书馆软件的公司,也非要扯上大数据,我横想竖想都想不到它那点数据量关大数据啥事,它能分析出什么东西。如果就用户的借书习惯来分析,就几千万的数据,小数据都算不上。

其实真正的大数据是涉及到很多分析过滤的。整个天朝,算得上真正大数据的,估计不超过50家,BAT算得上,其他一些做互联网数据分析的勉强算得上。
longquanwo
2015-03-08 12:39:16 +08:00
@cxshun 你的这个思路我不认可,大数据就是汇聚千千万万小数据得来的,可以把这些看不上眼的小数据卖给bat,再从所谓的大数据运营商,购买调用每个用户的数据。

这个话题我比较感兴趣。因为我现在做公共场所免费wifi项目,需要更多收益方式。
imn1
2015-03-08 12:42:51 +08:00
https://zh.wikipedia.org/wiki/%E5%A4%A7%E6%95%B8%E6%93%9A
http://baike.baidu.com/subview/6954399/13647476.htm

大数据其本质是数据分析,数据分析分为定性分析和定量分析两种,无法全部细讲,就简单点
数据分析主要包含:1.采样;2.分析;3.推导结论,各有难点

采样,数据来源、采集方法、样本筛选都有学问
来源必须真实和可获取(有些数据具保密性难以得到),采集的路径(路径指的是采集的顺序如何确定),筛选是要去掉无关数据和无效数据(假的、不合逻辑的等等)

分析,主要指定量分析,单因素分析和多因素分析,一般指后者,因为单因素分析比较简单
用#1的例子,星座是单因素分析,星座+血型是多因素分析
多因素分析需要建立数学模型,用数学方法对数据进行量化,并进行占比、排序等

推导结论,在前面分析的基础上,进行合理的论证

定量分析一般需要原始数据,自行统计而获得结论
——例如股票的计算公式/K线图,又例如最近某人拍的纪录片
定性分析一般采用现有资料和统计结果进行论证结论
——例如股票的基本面分析,又例如反驳上面这个记录片的某个回答
imn1
2015-03-08 13:02:29 +08:00
大数据现状(仅个人观点)

目前的“大数据”,只停留在“采样”这个阶段初始,因为目前的计算机和相关人才足矣做这一步
但采样还需要筛选,这就困难了,如何判断数据真实性、逻辑合理性还需要更多知识
其次是很多重要数据具有保密性,获取原始数据很可能触犯保密法

然后分析,分析有两个问题,客观方面是目前的数学模型还不成熟,这个指全世界,不仅国内,优秀的数学人才主要还是分布在生产、国家统计部门和学术领域,进入市场的并不多。主观方面,目前各家都不可能公开原始数据和分析方法,因为这个属于商业秘密,不公开也就导致部分可公开的分析结果只是表面性的,另外就是自然会受到质疑

结论推导过程,这个问题也很大,很多人想当然以为有数据就能得出结论,但实际上我看到很多推导都不合逻辑,不严谨。我个人觉得国内从小学到大学都没有开设《形式逻辑学》这门课是很致命的~
Antonidas
2015-03-08 13:10:32 +08:00
大数据以前看到过一个漫画,是"所有人都在说,很少人在做,但是没人确切的知道它是什么样子"
askfermi
2015-03-08 13:57:38 +08:00
Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...
spacewander
2015-03-08 14:03:43 +08:00
@pfitsen9 果壳上有一篇**科幻小说**:

《当我谈论算命时,我想谈的是大数据》 http://www.guokr.com/post/592618/
ffffwh
2015-03-08 14:19:13 +08:00
“Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...”
ffffwh
2015-03-08 14:19:41 +08:00
@askfermi
刚刚没看着,重复了
a01113
2015-03-08 14:52:01 +08:00
大数据就是数据。你在里面找出对你有用的。天气预报,gdp,这些都是
rentaro
2015-03-08 14:55:47 +08:00
GFW 就是
acgeo
2015-03-08 15:06:23 +08:00
核心依然是 数据挖掘

只不过现在数据量更多更大更杂乱!
jedicxl
2015-03-08 16:03:10 +08:00
大数据不是数据量大,而是范围广,甚至包括以前直接丢掉的垃圾东西
原因嘛,可以用蝴蝶效应来通俗理解:根据洛伦兹教授的说法,对于复杂的数学模型(大自然里处处都是复杂模型,比如洛伦兹搞的气象),一个微小的初始搅动都可能对未来的结果造成非常大的影响。注意,是“可能”。所以为了尽可能消除因为对微小初始搅动的忽略而带来的南辕北辙,就得把数据泥沙俱下无分好赖一锅全端。而由于复杂模型的复杂性,不同的分析思路,都有可能导向不同的结果(甚至戳到了意料之外的其他领域)。

其实看看《大数据》这书就大致了解为啥要折腾大数据了,讲的挺通俗


另外,其实大数据的倾向早就有了,而且有些还很娱乐向。比如福尔摩斯为代表的不务正业型断案,常规的刑侦手段偶尔用一下,派得上用场的多数是些不被苏格兰场认同的“偏招”,这其实就是大数据最喜闻乐见最走入百姓家的表现形式
lonelygo
2015-03-08 16:08:01 +08:00
大数据的关键不是数据量或者数据范围或者数据处理的技术方法和手段,最关键的是以下三个问题:
1、模型
2、模型
3、模型
归根到底,大数据玩的是数学和逻辑,IT技术和平台仅仅是工具。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/175303

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX