大数据不是巨量数据

2013-07-24 08:54:26 +08:00
 jianghu52
昨天在创意那边的论坛聊了一个用大数据预测双色球的问题,其中一个哥们跟我回复的信息很好玩,说 [千分之一样本数据没超过单机内存就不要自称大数据了。纯装逼] 。在他看来,大数据一定是巨量的,普通机器难以处理的数据。
但是就我的理解,如果大数据真的是这种只能靠小型机,或者机器阵列才能处理的结构的话,那么他离普通人的距离会非常远。整个中国有能力玩大数据的公司,还有人就屈指可数。
最近在读两本书,一本是维克托•迈尔-舍恩伯格写的《大数据时代》,另外一本是涂子沛的《大数据》。里面正好有一个很有意思的例子。
《大数据时代》里面有人通过统计十年的相扑比赛结果,再配合上升段时间节点,以及对手双方的胜率,就可以发现到底相扑选手是否作弊。《大数据》里面,有人搜集了美国的各个机场的航班晚点情况,就可以预测出当天的航班是否可能会晚点。 这两个例子里面,数据撑死了,我估计都不到100m。但是却被两个作者都认为是大数据的代表。
我觉得数据本身的大小并不是关键,关键是在于足够精细的粒度之下,范围足够大,多样性足够多的数据,才能被称为大数据。事实上,如果数据只是存储文字的话,我觉得大多数的数据都是可以被个人PC所处理的。关键在于样本足够完善,范围足够大。
这就是我理解的大数据。
6127 次点击
所在节点    云计算
29 条回复
shoumu
2013-07-24 18:41:18 +08:00
听过一句话:“在高校里面讲云计算是道德败坏”
avichen
2013-07-24 20:39:14 +08:00
@shoumu 我们没说这个是云计算开创的,只是新时代下新的包装方式,得有新东西卖呀。呵呵。
Ricepig
2013-07-24 20:50:42 +08:00
大数据时代应该和其他一些“大xx时代”一样理解

比如说我大巴萨V5,我大杭州V5这类

不是巴萨大,也不是杭州大,呵呵
shierji
2013-07-24 22:12:53 +08:00
@Ricepig 我赞同这个观点……还比如说我大帝都,我大重庆,我感觉这个大更多的是对数据的重视性和对大量数据的分析……但是并不是一定等于数据大
venmos
2013-07-25 04:27:42 +08:00
没有"大量"的数据,则没有"大数据"
monkeylyf
2013-07-25 07:52:18 +08:00
big data vs smart data
konakona
2014-04-17 19:45:50 +08:00
大数据是用来解决问题的,在业务的角度它是偏向抽象的、概念化的。
大数据是分析数据的名词。

过分的将大数据理解为“大的数据”是普遍错误的一种认知。这种“大的数据”早就存在了,例如Google、Facebook、Twitter、甚至是SNNA、GFW等。

光说大数据还不足以表明它能干什么,应该是大数据分析。

即便是100G也可以做大数据分析。
konakona
2014-04-17 19:47:54 +08:00
讲大数据就不要轻易谈论成本。因为大数据分析一整套解决方案,实施下来起步价是100W+。

如果只是走大数据分析的形式,则聘请相关专家,人天实施项目,成本会降低至几十万。
konakona
2014-04-17 19:50:55 +08:00
大数据指的是:基于数据量的数据分析方法。
形成有价值、可量化的结果,为营销和市场带来不可估量的收获。

大数据必然建立在数据上,但这数据不必是巨量的。而是可分析、有价值的数据。所以我说100G也可以做大数据分析。

50G没准都可以,不过普通的数据中含有大量的无用数据(比方说视频日志数据,会记录每几秒的操作,但其实每次只有1、2秒的数据具有分析价值)。所以可以变相的说:数据量越大,分析的结果越精准靠谱。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/76780

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX