大数据导论托马斯—第三章大数据采用及规划考虑

背景引入:

鉴于大数据的性质及其分析能力,在项目开始时需要考虑和计划许多问题,因此要求组织识别并建立一套独特的治理流程和决策框架,以确保责任方了解大数据的性质,影响和管理要求。第三章通过详细讲解大数据分析时的主要的潜在问题和注意事项。
3.1-3.5数据分析之前要考虑的问题(同学讲的是数据前期处理)
3.6-3.10 数据分析过程中可能遇到的问题(硬件和技术支持)
3.11 具体阐述分析过程(大数据分析的生命周期)

3.1 组织的先决条件:

大数据管理框架、能进行良好数据管理的高质量数据。

3.2 数据获得(不应该为获取)

在这里插入图片描述
Data Procurement为数据采购的意思,由于某些数据由公司的设备或者其他平台免费获得,无需购买,所以我把这部分称为获得。(数据获取指利用一种装置,将来自各种数据源的数据自动收集到一个装置中,书中数据获得方式更丰富)

互联网或者企业获取:直接从一些专业类服务网站上抓取或者购买(例如大众点评、携程),或直接从大家在其公开的地图服务上的标注中进行筛选和获取。这就是google、百度、高德自己免费向社会开放其地图服务所能够获得的利益。尤其对于开放API免费企业客户的使用,这种获取是很有价值的。

3.3 隐私性

无隐私不数据,无数据就无服务。享受大数据时代便利的同时我们也在产生大量数据,通过平时浏览的网页、购买的商品、出行的记录等等行为都透露着自身的信息,分析这些数据可以揭示一些隐私信息。(通过大数据算法勾勒出用户肖像,然后把他们想要的、喜欢的精准送达,进而带动商业价值实现几何数级的增长。亚马逊的个性化推荐助其销售量翻番,而Facebook的精准广告投放更是成功将大把的粉丝和流量变现,这些商业佳话也是我们隐私泄露的证明。)
解决这些隐私问题需要深刻理解数据积累的本质和数据隐私管理,同时也要使用一些数据标记化和匿名化技术。

3.4 安全性

数据存储可以包含各种类型的数据,包括用户应用程序参数、个人私密数据和医疗记录、审核以及安全日志,甚至还包括用户访问应用程序所需的凭据。很明显,这些数据都应该受到保护,不论是在存
储期间还是在读/写的操作过程中,都要确保这些数据只能被拥有相应权限的用户访问。
在这里插入图片描述
(举例:数据访问权限集对具有相同科目表、日历和期间类型的分类帐及其所有平衡段值或管理段值的定义读写权限,系统管理员将其分配至不同的责任以控制不同的责任对分类帐数据的访问。
感觉校园网认证算认证授权机制,上网不涉密,涉密不上网。)

3.5 数据来源(实指来源信息,与数据获得区别)

在这里插入图片描述

3.6 有限的实时支持

在这里插入图片描述
实时处理(流处理):我想知道某个用户A的行为信息(例如A几点几分点击什么商品,几点几分浏览过什么),从而根据这些行为推荐出商品信息。这类用户的行为信息是源源不断的,一个接一个来,如A在7点40分32秒浏览了产品1,在7点40分35秒就看了产品2,这些信息一个个来到,越积越多,要求要迅速处理这些信息,没有延迟。就像在溪流的某个地方设立一个检测仪,检测水(数据)的实时情况。批处理:根据用户的一段时间的信息推荐商品,比如我可以根据用户1年在亚马逊的消费信息,统一进行分析处理。还是用水流的例子,我可以把水流的水(数据)都集中在一个大水箱里面,然后分析水(数据)的情况。这样的分析并不是实时的。总之流处理是实时性小任务的处理,它对处理的延迟容忍度较低,但是容错性(发生的错误并从错误中恢复的能力)较高。

3.7 不同的性能挑战(性能问题)

(1)数据量大导致查询时间很长
(2)数据量增加导致单位数据的传输时间超过处理时间

3.8 不同的管理需求

管理框架结构作用:保证数据和解决方案环境以一种可控的方式被管理、标准化和逐步发展(译文为演化)。因此需要一个良好的有价值的管理框架。

3.9 不同的方法论

为了解决数据的不同处理要求,要使用不同的方法论,考虑如何建立反馈循环使处理过的数据能够重复细化。
在这里插入图片描述
举例如下:
每一轮循环都能对操作步骤、算法和数据模型进行微调以改善结果的准确性,为商业活动提供更高的价值。

3.10 云

在这里插入图片描述
云计算:通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足带来的问题。
云计算技术就是一个容器,大数据正是存放在这个容器中的水,大数据是要依靠云计算技术来进行存储和计算的。

3.11 大数据分析的生命周期

第一章中总结过数据的生命周期是从数据的处理过程角度给出的:
在这里插入图片描述
第三章的生命周期从组织和管理与大数据分析相关的任务角度给出的:

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/yuanlaishixiaoxin/article/details/83448672