大数据仅仅是概念,还是真的有实用性?

大数据是一种进步,但是我们完全没有必要神话,更没有必要妖魔化。大数据是一种概念,也只是我们认知世界发展到目前阶段顺理成章的产物。

从去年开始,不管是互联网行业还是其他行业,大数据一词开始频繁出现。

“概念”性质的东西在中国的互联网圈子总是可以快速传播,这里面有很多原因,其中就有整体氛围所致:大多数互联网的创业者都是希望通过前瞻性的创新来改变世界,受到资本追捧,最终套现。在这个过程中,概念飞快的传播、包装,成为各种打着标签的产品。而实用主义者只被动接受,缺乏正确认知深刻的探索。

从下图可以看出,2008年大数据概念开始传播后,在百度和Google的“大数据”和“Big Data”的检索趋势(下图数据中Baidu的PV加权处理,和Google相等同来体现趋势对比):

大数据这词,百度的中文检索的爆炸性远远高出英文的Google检索。

这就是硅谷臭名昭著的技术成熟度曲线(炒作周期),而在国内互联网行业被传承和发扬的更厉害。

开个玩笑:“目前的大数据在国内,就好比是一堆青春期的孩子在谈论“性”,每个人都喜欢谈,如果不谈就好像自己不正常,但只是很少人真正有经验。真正有经验的,却又闭口不言,笑笑而已”。互联网行业发展迅速,这些孩子早晚都会成人,但是目前为止,绝大多数受益者只是那些打着标签的厂商,就好比卖给青春期孩子非法出版物的商贩。

大数据到底是什么?

那到底什么是大数据呢?大数据仅仅是个概念还是有真正的未来呢?

首先,所有的数据的作用,都是寻找规律。

唯物主义辩证法说:世界是物质的,物质是运动的,运动是有规律的,而规律是可以掌握的。不管是最早的统计学,计算机出现后的数据分析,数据挖掘,以及到现在的大数据。我们都是在探索世界中的规律,试图通过规律来了解这个世界。

在没有出现计算机和互联网的时代,前辈科学家奠定了数学和统计学的基础。计算机出现后,对数据的存储和计算能力大幅度增加,整理和分析数据的能力也在大大增加。而互联网的出现和发展,让搜集的手段进一步丰富,数据量大大增加。通过数据找规律的这个游戏也在不断的丰富。

这个过程,数据一方面越来越大,另一方面越来越“小”的,怎么说呢:这个过程的进化可以简单的说成“对整体样本的覆盖” 和“对微观数据价值的发掘”。数据的精髓在于抽样和模型,因为技术手段不可能获取所有的对象特征,只能通过部分模拟全部,通过抽象模型来描述对象。而计算机和互联网出现后,对信息获取能力,和对数据的分析和挖掘能力大大加强,对试图探索的样本覆盖越来越大,而对对象本身的描述越来越细致。

好比我们想知道这一车苹果的质量。以前只随机抽样100个,看看外观有没有生虫坏损;现在抽样7000个,每一个苹果用30多项数据来描述苹果特征和质量。以后不需要抽样了100%的都获取数据,然后每个苹果100多项数据描述特征和质量,甚至整个生长周期数据。

但是不管是统计学,数据分析,数据挖掘,还是现在的大数据。我们的任务自始至终没有变化:通过收集、整理、分析数据等手段,来寻找规律、推断本质、甚至预测未来。

不管在任何一个阶段,这个任务都是有局限的,我们仅仅可以推测对象本质的一部分而不是全部。在技术手段发展到一定阶段可以产生新的技术和方法论,也可以在推测和预测上更近一步,走出的这一步可以大大提高生产力,这也是大数据的价值所在。

正确的看待大数据

数据的确不会说谎。但要精准说明一件事,需要足够多的数据,和足够微观的挖掘。但数据,永远不会足够多。例如篮球比赛,数据与感知,会永远的交织下去。越来越多的数据模型,会给出无限接近印象的结果;但是当数据或感知任何一方一统天下时,谈论篮球,也就不复有乐趣了。而不论对数据多么了解,也需要教练设计战术、发挥球员特定,激励团队士气,才能赢得比赛,数据本身不会“赢球”。

大数据是一种进步,但是我们完全没有必要神话,更没有必要妖魔化。大数据是一种概念,也只是我们认知世界发展到目前阶段顺理成章的产物。理智的看待大数据,让好的为生产和研究服务,更多的发挥我们自己的创新性和主观能动性,会更有价值。

作者强力推荐阅读文章:

大数据工程师必须掌握开源工具汇总

大数据高级工程师教你如何读懂大数据核心技术

顶级大数据工程师需要掌握的技能

大数据、机器学习和人工智能未来发展的8个因素

猜你喜欢

转载自blog.csdn.net/tttttt012/article/details/91401889