大数据基本认识

海量数据产生的原因?

大数据有4V特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。

(1)随着物联网、社交网络、云计算等技术不断融入我们的生活以及现有的计算能力、存储空间、网络带宽的高速发展,人类积累的数据在互联网、通信、金融、商业、医疗等诸多领域不断地增长和累积。

(2)大数据的成因源于信息技术的发展,技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。

体会看法:

各种数据政治迅速膨胀并变大,它决定着企业的未来发展,随着时间的推移,人们会越来越多地意识到数据对企业的重要性,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了更大的空间与潜力。

大数据的出现与发展为我们生活带来了什么?

(1)帮企业进行消费者的需求分析
现在的消费者不再是营销产品的被动接收器。通过大数据帮助企业找准消费者的需求点设计产品,刺激消费。
(2)帮企业挖掘锁定客户资源
通过大数据技术,可以实现企业的客户资源进行精准的锁定,形成可视化图片展示,有利于企业产品的营销推广的区域性。
(3)帮企业危机预警
危机效应将瞬间传递开来,对企业的商誉和品牌造成极大的伤害,而大数据可以帮助企业进行舆情监控防止给企业造成巨大的损失。
(4)大数据对政府城市管理的帮助
4.1 大数据应用于城市规划

准确掌握这些区域的分布对制定合理的城市规划有着极其重要的意义。由于一个区域的功能并不是单一的,如在科学文教区里仍然有饭店和商业设施的存在,一个区域需要由一个功能的分布来表达(如70%的功能为商业,20%的功能为住宅,剩余的为教育)。

4.2. 大数据应用于城市应急管理

大数据在应急管理中的应用方式分为两部分:大数据技术和大数据思维。大数据技术既包括诸如数据仓库、数据集市和数据可视化等旧技术,也包括云存储和云计算等新技术;而大数据思维则是从海量数据中发现问题,用全样本的思维来思考问题,形成了模糊化、相关性和整体化的考虑方式。
以疾病预防为例:大数据的使用可以将用户的每日数据输入到医疗数据系统,通过对匹配病原情况的数据筛查,可以准确的找到感染群体、规模、特征,同时可以快速调去处置方法,达到应急管理的重要目标。

4.3 大数据应用于城市环境保护

大数据的虚拟化特征,还将大大降低环境管理风险,能够在管理调整尚未展开之前就给出相关答案,让管理措施做到有的放矢。以管理污染源企业为例:通过大数据技术,可以实现污染源企业的精准锁定。在污染源的生命周期过程中,每个节点所需要的每一类数据,都可以进行搜集分析,形成基于污染源管理的数据资源分布可视图。

(5)大数据应用于犯罪预警

随着智能电话和电脑网络的普及,犯罪嫌疑人活动会产生大量在线信息,通过对收集到的海量的、模糊的、不完整的案件信息中的涉案人员信息、涉案物品信息、旅馆业信息、航班信息、车辆信息等,进行分析、挖掘,发现案件属性与犯罪人员属性的关联规则,进而找到犯罪的规律、特点,对预防、打击犯罪,保障城市公共安全具有重要的理论意义和现实意义。以美国为例:随着智能电话和电脑网络的普及,美国政府和大公司把自己的触角伸到个人生活的每个方面。美国个人的一切在线行为数据都被收集储存,有关公司和政府机构可以运用数据挖掘的办法,监控和预测个人的行为,并做出相关决策。

体会看法:
大数据的到来,是把双刃剑。有利也有弊。大数据的高速发展,使联系变得更加密切,但也让隐私变得不再隐私。 但是不可否认的是它对社会进步有促进作用。

传统的数据处理,存储手段在海量数据当中有什么劣势?

数据的共享程度:无共享,冗余度极大
数据的独立性:不独立,完全依赖于程序
数据的结构化:无结构

储存能力弱和储存数据速度慢,
业务信息逐级传送,传输所需时间长
信息传输错误率高,不能准确反映顾客需求
信息搜集传输成本高

大数据数据存储手段?

1、NAS(Network Attached Storage:网络附属存储)

NAS是一种专用数据存储服务器,包括存储器件和内嵌系统软件,提供文件集中存储和共享功能。
NAS设备和多台视频存储服务单元均可通过ip网络进行连接,按照tcp/ip协议进行通信,以文件的i/o(输入/输出)方式进行数据传输。一个NAS单元包括文件服务管理工具,核心处理器,一或多个的硬盘驱动器用于数据的存储。
采用NAS方式可以同时支持多个主机端同时进行读写,其共享性能和扩展能力十分优秀;同时NAS可应用在复杂的网络环境中,部署也相当灵活。
在这里插入图片描述

2、SAN(Storage Area Network:存储区域网络)

SAN是一种专门为存储建立的独立于TCP/IP网络之外的专用网络。SAN网络独立于数据网络存在,因此存取速度比较快,另SAN一般采用高端的RAID阵列。SAN提供了一个专用的、高可靠性的存储网络。允许独立地增加它们的存储容量,使得管理及集中控制更加简化。
在这里插入图片描述

3、DAS(Direct-Attached Storage:开放系统的直连式存储)

DAS主要依赖服务器主机操作系统进行数据的IO读写和存储维护管理,数据备份和恢复要求占用服务器主机资源(包括CPU、系统IO等),数据流需要回流主机直连式存储的数据量越大,备份和恢复的时间就越长,对服务器硬件的依赖性和影响就越大。
DAS与服务器主机之间的连接通常采用SCSI连接,随着服务器CPU的处理能力越来越强,存储硬盘空间越来越大,阵列的硬盘数量越来越多,SCSI通道会成为IO瓶颈;服务器主机SCSIID资源有限,能够建立的SCSI通道连接有限。
在这里插入图片描述

4、硬盘
硬盘是电脑主要的存储媒介之一,由一或多个铝制或者玻璃制的碟片组成。碟片外覆盖有铁磁性材料。
无论是dvr、dvs后挂硬盘还是服务器后面直接连接扩展柜的方式,都是采用硬盘进行存储方式。采用硬盘方式进行的存储严格意义上说并不能算作存储系统。因其除不具备raid系统外,扩展能力还极其有限无法实现数据的集体存储

管理手段主要靠文件系统和数据库系统。

数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享。两者属于系统软件或底层软件;都是用来存储和访问数据的;都有着悠久的研究开发历史;都有成熟的标准或规范。这既有利于开发可移植的程序,又不利于开发创新的系统,特别是分布式系统。

体会看法:
这四种数据管理手段让海量数据中重要的数据变得更加合理有序,方便信息处理

大数据分析在商业上的应用?

参考
1、体育赛事预测
世界杯期间,谷歌、百度、微软和高盛等公司都推出了比赛结果预测平台。百度预测结果最为亮眼,预测全程64场比赛,准确率为67%,进入淘汰赛后准确率为94%。现在互联网公司取代章鱼保罗试水赛事预测也意味着未来的体育赛事会被大数据预测所掌控。

2、股票市场预测
去年英国华威商学院和美国波士顿大学物理系的研究发现,用户通过谷歌搜索的金融关键词或许可以金融市场的走向,相应的投资战略收益高达326%

3、人体健康预测
中医可以通过望闻问切手段发现一些人体内隐藏的慢性病,甚至看体质便可知晓一个人将来可能会出现什么症状。人体体征变化有一定规律,而慢性病发生前人体已经会有一些持续性异常。理论上来说,如果大数据掌握了这样的异常情况,便可以进行慢性病预测。

4、市场物价预测

5、疾病疫情预测

基于人们的搜索情况、购物行为预测大面积疫情爆发的可能性,最经典的“流感预测”便属于此类。如果来自某个区域的“流感”、“板蓝根”搜索需求越来越多,自然可以推测该处有流感趋势。
Google成功预测冬季流感:
2009年,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型。最终google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。

6、灾害灾难预测

气象预测是最典型的灾难灾害预测。地震、洪涝、高温、暴雨这些自然灾害如果可以利用大数据能力进行更加提前的预测和告知便有助于减灾防灾救灾赈灾。
7、环境变迁预测

大数据帮助人类收集、储存和挖掘更多的地球数据,同时还提供了预测的工具。

8、交通行为预测

基于用户和车辆的LBS定位数据,分析人车出行的个体和群体特征,进行交通行为的预测。交通部门可预测不同时点不同道路的车流量进行智能的车辆调度,或应用潮汐车道;用户则可以根据预测结果选择拥堵几率更低的道路。

体会看法:
大数据的出现为人类生活带来了福音,也将对诸多领域发展提供帮助,合理利用大数据,为人类做出贡献,造福人类。

猜你喜欢

转载自blog.csdn.net/qq_43573663/article/details/114443610