大数据基本知识

1、大数据的特点可以概括为4V: Volume Value Variety Velocity,即数据规模大、数据价值高、数据类型多、数据处理速度快。

2、核心特征是Value,数据价值高。但是价值密度低。

3、大数据处理主要关注的五项技术:高性能数据仓库、MPP数据库、HADOOP、NoSQL、Stream

MPP数据库:MPP即大规模并行处理系统,系统由许多松耦合处理单元组成的。其中,每个单元内的CPU都有自己私有的资源,如总线、内存、硬盘等。在每个单元内都有操作系统和管理数据库的实例副本。这种结构最大的特点在于不共享资源。

并行数据库体系结构包括三种基本体系:共享内存结构(Shared-Memory)、共享磁盘结构(Shared-Disk)、无共享资源结构(Shared-Nothing)。

Shared-Memory结构也就是SMP结构,包括多个处理器、一个全局共享的内存(主存储器)和多个磁盘存储,各个处理器通过高速通信网络(Interconnection Network)与共享内存连接接,并均可直接访问系统中的一个、多个或合部的碰盘存储,在系统中,所有的内存和磁盘存储均由多个处理器共享。

共享磁盘(Shared-Disk)结构: 系统中的每一个处理器可以访问全部的磁盘存储,磁盘存储中的数据被复制到各个处理器各自的高速缓冲区中进行处理,这时会出现多个处理器同时对同一磁盘存储位置进行访问和修改,最终导致数据的一致性无法保障,因此,在结构中需要增加一个分布式缓存管理器来对各个处理器的并发访问进行全局控制与管理,这会带来额外的通信开销。Oracle的RAC就是样的结构。

无共享资源(Shared-Nothing)结构: 

该结构由多个完全独立的处理节点构成,每个处理节点具有自己独立的处理器、独立的内存(主存储器)和独立的磁盘存储,多个处理节点在处理器级由高速通信网络连接,系统中的各个处理器使用自己的内存独立地处理自己的数据。目前,在并行数据库领域,Shared-Memory结构很少被使用了,Shared-Disk结构和Shared-Nothing结构则由于其各自的优势而得以应用和发展。Shared-Disk结构的典型代表是Oracle集群,Shared-Nothing结构的典型代表是Teradata,IBM DB2和MySQL的集群也使用了这种结构。

Stream:实时数据处理过滤,规则匹配

总结一下:

大数据时代没有“必杀技”可以高效低成本的满足整个架构,和种技术相辅相成,优势互补。

高性能数据仓库:高并发、高性能处理结构化数据、支撑高SLA需求

MPP数据库:结构化、关联性分析、即席分析

Hadoop:非结构化或批量简单汇总、非实时处理、数据挖掘

NoSQL:结构化或非结构化存储与实时查询

流处理(Stream):实时数据处理过滤,规则匹配

猜你喜欢

转载自ynduanlian.iteye.com/blog/2231165