大数据
*大数据概念:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,传统 据库无法处理的数据,一般以亿级为单位。
*小微量数据 几千-几万条数据量
*企业级数据 十万、百万、千万数据量
*大数据 亿级以上数据量
*天文级超大数据 兆亿数据 1M=1024K 1024*1024=100万
*兆亿:100万亿数据
*传统数据库:Access、mysqlServer、mysql、orcal
*大数据5V特性:
*大量(Volume)
*高速(Velocity)
*多样(Variety)
*低价值密度(Value)
*真实性(Vercity)
*什么是大数据?
*传统数据库在一定时间内,无法捕捉,处理的数据,称之为大数据。一般以亿级以上数据为分界线。
*为什么学习大数据?
*现今,大数据技术为当今社会的主流,是计算机行业的中流砥柱,未来5年、10年甚至更久,都会是大数据时代!而我深知一句话:不跟随时代的脚步,就会被时代淘汰,而我本身又对大数据比较感兴趣,想研究、探讨有关大数据的知识,所以,我对大数据充满信心!
*什么是分布式系统和hadoop?
*分布式系统又包括分布式数据库与分布式框架;分布式系统的好处是可以横向延伸,从而进行大数据的简单化处理。
*分布式数据库,可以理解为在一台或多台服务器上配置多个分布式数据库,进行数据的分布式处理;
*分布式框架,现在以Hadoop为主流,因为Hadoop有三大特性:
*1.高可用
*2.可靠性(安全)
*3.可扩展性(当新数据进入,只需加几台服务器与相应节点简单配置即可)
*同时Hadoop又是一个开源免费框架,可以为处理大数据或者天文级数据提供很好的处理思想与框架工具。
*有十亿数据如何处理?
*京东有上万台服务器,每台服务器布置着多个分布式节点,不论是十亿或是更多,都可以引用分布式系统来处理。分布式系统又分为分布式数据库和分布式框架,分布式数据库相对于新增数据的处理,并没有分布式框架那么灵活,所以,我会采取以Hadoop分布式治理框架为本的处理方法。
*大数据的特点?
*大数据有5V特性:
*大量(Volume)
*数据量庞大,一般亿级以上的数据量
*高速(Velocity)
*数据量庞大的同时,处理速度快
*多样(Variety)
*传入方式与输出方式多种多样,物理性可操作的(例如图片/视频/文档等)称之为数据
*低价值密度(Value)
*一般亿级数据,但对本身有用的数据可能只占10%(并不是说其余都是无用数据,而是相对于所需要者的需求来说)
*真实性(Vercity)
*数据都是通过各种各样的渠道获取的,可用目前所获取的数据,推测未来发生的事情的概率等。
*为什么要用大数据处理复杂问题?
*因为复杂问题往往需要进行复杂的运算,而大数据具有的特性:高速性,恰好为复杂问题提供了相符合的方法。但应用大数据也要有相应的前提,数据量是否达到了大数据的要求,以及处理方式,也需要进行推敲,是选择分布式数据库来做,还是分布式框架来做。
*sql与Nosql的区别:
*传统sql是以行为存储单位
*当大量数据中,有个别字段没有值,sql数据库会把相应字段内容空出来或者null,更占内存。
*Nosql是以列为存储单位
*当大量数据中,有个别字段没有值,Nosql数据库会更节省空间。
*为什么不用Nosql开发轻量级数据?
*Nosql数据库(例如:mongodb),基本可操作性没有传统数据库mysql强,而且微量数据使用Nosql数据库,会有一种杀鸡用牛刀的感觉,不趁手,又不方便。