大数据不是巨量数据

2013-07-24 08:54:26 +08:00
 jianghu52
昨天在创意那边的论坛聊了一个用大数据预测双色球的问题,其中一个哥们跟我回复的信息很好玩,说 [千分之一样本数据没超过单机内存就不要自称大数据了。纯装逼] 。在他看来,大数据一定是巨量的,普通机器难以处理的数据。
但是就我的理解,如果大数据真的是这种只能靠小型机,或者机器阵列才能处理的结构的话,那么他离普通人的距离会非常远。整个中国有能力玩大数据的公司,还有人就屈指可数。
最近在读两本书,一本是维克托•迈尔-舍恩伯格写的《大数据时代》,另外一本是涂子沛的《大数据》。里面正好有一个很有意思的例子。
《大数据时代》里面有人通过统计十年的相扑比赛结果,再配合上升段时间节点,以及对手双方的胜率,就可以发现到底相扑选手是否作弊。《大数据》里面,有人搜集了美国的各个机场的航班晚点情况,就可以预测出当天的航班是否可能会晚点。 这两个例子里面,数据撑死了,我估计都不到100m。但是却被两个作者都认为是大数据的代表。
我觉得数据本身的大小并不是关键,关键是在于足够精细的粒度之下,范围足够大,多样性足够多的数据,才能被称为大数据。事实上,如果数据只是存储文字的话,我觉得大多数的数据都是可以被个人PC所处理的。关键在于样本足够完善,范围足够大。
这就是我理解的大数据。
6125 次点击
所在节点    云计算
29 条回复
cxe2v
2013-07-24 09:08:32 +08:00
嗯,大数据确实不是巨量数据,那个哥们确实是纯装逼,哎,这种人多了去了,专心好做你自己的,你就能在看似牛人一片的地方脱颖而出
RisingV
2013-07-24 09:12:37 +08:00
概念上没有什么需要自己添加理解的余地。
就是数据量大到传统的关系型数据库等技术难以处理,就叫大数据。
所以需要Mapreduce+GFS这样的分布式暴力计算框架和分布式文件系统来处理。
关键差别在哪里?后者省时间、省设备,归根结底就是省钱。
以前叫海量数据,学术词,问题变普遍了,顺口一点就叫大数据。

或许你想表达的是高精度的数据挖掘和大数据之间没有必然关系,这是对的。
但是,大数据就是大数据,不需要大家来“横看成岭侧成峰”
RisingV
2013-07-24 09:14:08 +08:00
“千分之一样本数据没超过单机内存就不要自称大数据”。这话一点也没说错!
est
2013-07-24 09:14:54 +08:00
> 《大数据时代》里面有人通过统计十年的相扑比赛结果,再配合上升段时间节点,以及对手双方的胜率,就可以发现到底相扑选手是否作弊。《大数据》里面,有人搜集了美国的各个机场的航班晚点情况,就可以预测出当天的航班是否可能会晚点。

那么请给出这是 大数据 ,而不是传统的 数据建模 和 统计分析 有区别的地方?

http://en.wikipedia.org/wiki/Big_data

> Big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications.

说你这两个例子叫装逼还是拔高了。这两个例子纯粹2b
RisingV
2013-07-24 09:16:14 +08:00
“Big data[1][2] is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications.”

http://en.wikipedia.org/wiki/Big_data

维基百科也写得很清楚了。那哥们一点也没说错。
Narcissu5
2013-07-24 09:22:21 +08:00
最近感觉流行中的大数据的概念越发向中医或者气功一类的东西靠拢了。
zhttty
2013-07-24 09:22:49 +08:00
不要钻牛角尖,big data 确实就是大数据,海量级,PB级。

但是大数据的分析方法确实可以通用到很多分析领域。

前者是定义,后者是方法,你不能说用了大数据的分析方法分析的数据就成了大数据,这是逻辑颠倒的误区。
dimfox
2013-07-24 09:49:01 +08:00
所有的名词成为时尚之后,都会被人将内涵不断扩大。所以没必要太计较确切的定义。
likuku
2013-07-24 09:59:43 +08:00
有时也可能是100G的数据必须1分钟内完成统计报表,那么可能需要非常贵的单机才搞得定,来一组"大数据"机群来跑就有可能完成。
avichen
2013-07-24 11:58:12 +08:00
@likuku 非常贵的单机和一组"大数据"机群从价钱上有分别吗?不都是一样需要很大的投资成本。呵呵,你这个不是重点。
我觉得重点是可以把很多分散的计算能力统一起来合理利用,这才是大数据时代云计算的根本内涵。
luikore
2013-07-24 12:06:10 +08:00
buzzword 会被各种人因应自己的便利更改含义, 特别是搞营销的...
宅, 黑客, 有机... 之类的词早就和原来意思差 10 万 8 千里了
plprapper
2013-07-24 12:22:49 +08:00
呵呵 真给他海量数据,他会说 需要加机器。。。
quake0day
2013-07-24 12:42:36 +08:00
本身大数据就是个和云计算一样模糊的概念,怎么解读也都不为过。但我认为数据本身的大小很重要,大数据研究的就是数据过大后如何对数据做有效的传输,存储和处理。
否则10G数据要是也叫做大数据,就是数据维度广些,那么和普通的统计分析有啥区别?
likexian
2013-07-24 12:54:56 +08:00
luikore
2013-07-24 13:05:39 +08:00
两条新财路:

出售双色球历史购票记录超大数据1元/M, 里面用随机数生成就可以
出售ASIC双色球分析阵列电路, 随便焊个就可以, 但数字要液晶一个一个的跳出来效果特别好那种
likuku
2013-07-24 13:37:46 +08:00
@avichen 「我觉得重点是可以把很多分散的计算能力统一起来合理利用,这才是大数据时代云计算的根本内涵。」觉得我上面的主要意思也暗合了你这说法嘛。
likuku
2013-07-24 13:39:04 +08:00
@luikore 一直怀疑电视彩票开奖的不是现场直播,而是录像。

纯CG生成开奖画面,现在的机器也不是不可能。
luikore
2013-07-24 14:07:24 +08:00
@likuku 怀疑就要去探索啊, 去彩票中心搞搞关系进去看吧
avichen
2013-07-24 14:19:17 +08:00
@likuku 我怎么感觉你的意思是成本问题,呵呵。
shoumu
2013-07-24 18:39:32 +08:00
@likuku
@avichen
> 「我觉得重点是可以把很多分散的计算能力统一起来合理利用,这才是大数据时代云计算的根本内涵。」
不觉得这个根本内涵,计算能力的统一合理利用方式并不是云计算才开创的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/76780

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX