章节1 大数据概述
课时1 数据的概念、类型和组织形式
1.1数据
1.1.1数据的概念
1.1.2数据类型
数据类型有文本、图片、音频、视频等
1.1.3数据组织形式
随着Web2.0的兴起,非结构化数据迅速增加,目前人类社会产生的数字内容中有90%是非结构化数据,因此,能够更好支持非结构化数据管理的NoSQL数据库应运而生
课时2 数据生命周期和数据使用
1.1.2数据生命周期和数据使用
如何把数据变得可用:第一步:数据清洗;第二步:数据管理;第三步:数据分析。
任何数据分析计划的第一步就是数据清洗,也就是把数据变成一个可用的状态。这个过程需要借助于工具去实现数据转换,比如古老的Unix工具AWK、XML解析器和机器学习库等,
此外,脚本语言,比如Perl和Python,也可以在这个过程发挥重要的作用。完成数据的解析,就要开始关注数据的质量。对于来源众多、类型多样的数据而言,数据缺失和语义模糊等问题是不可避免的,必须采取措施解决。
数据经过清洗以后,被存放到数据库系统中进行管理和使用。从上个世纪70年代开始,关系型数据库提供SQL语句进行各种查询操作,同时支持事务一致性功能,很好地满足了各种商业应用需求,但随着Web2.0应用的不断发展,非结构化数据开始迅速增加,对于大规模非结构化数据则暴露了很多难以克服的问题,NoSQL数据库的出现,有效满足对非结构化数据进行管理的市场需求,并得到了非常迅速的发展。
存储数据是为了分析数据,分析数据需借助于数据挖掘和机器学习算法和使用相关大数据处理技术Google提出了面向大规模数据分析的分布式编程模型MapReduce,Hadoop对其进行了开源实现。
课时3数据的价值性和数据爆炸
1.1.3数据的价值性和数据爆炸
数据的价值根本在于可以为人们找出答案。数据往往都是为了某个特定的目的而被收集,而数据的价值对于数据收集者而言,价值都是显而易见的。数据的价值是不断被人发现。
数据价值的再发现:对于购物网站,它们会记录和整理这些购买数据,当海量的购买信息被收集过后,就可以预测未来即将流行的产品特征,网络公司会把这些信息卖给各类生产商,帮助这些公司在竞争中脱颖而出,这就是数据价值的再发现。数据的价值不会因为不断被使用而削减,反而会因为不断重组而产生更大的价值。
课时4第三次信息化浪潮
课时5信息科技为大数据时代提供技术支撑
课时6数据产生方式的变革促成大数据时代的来临
课时7大数据的发展历程
课时8世界各国的大数据发展战略
课时9大数据的概念