大数据导论

版权声明:qq836678589 https://blog.csdn.net/weixin_43924623/article/details/85345055

1大数据时代
2可视化
3思维变革
4医疗与健康
5教育
6云端
7技术
8数据科学家

···················································································

1大数据时代

1 定义:常规软件不能处理的数据集。
2 4v模型:数量(volume)种类(variety)速度(velocity)价值(volume)
3 结构类型:结构化、半结构化,准结构化,非结构化。
4 发展:硬件廉价,技术进步。

2可视化

1定义:将数据转换成图形,便于理解,更容易获取信息。
2数据的特性:1可变性,2不确定性,3背景,4效果
3七个数据类型:1d线性数据,2d地图数据,3d世界数据,多维数据,时态数据,树数据,网络数据。
4七个基本任务:概览,缩放,过滤,细化,关联,历史,提取。
5挑战:

3思维变革

1样本到总体:人口普查,乔布斯拿到癌症基因
2容错性(混杂性):牺牲精确性来获得更广泛的数据。
3因果关系:
4相关关系:是什么而不是为什么

4医疗与健康

1循证医学:决策应该在研究的基础之上,结合临床经验。
3医疗数字化

5教育

1网站举例:中国大学mooc、可汗学院、网易公开课、哈佛公开课
2人工智能:用计算机来模拟人的行为的理论方法技术。
3机器学习:
(1)定义:用机器来模拟人类学习。
(2)分类:
策略:1机械学习2式教学系3演绎学习4类比学习5解释学习6归纳学习
形式:1监督学习2非监督学习(根据有无答案)
表示形式:
5深度学习:模拟人脑的神经网络来分析学习

6云端

1云计算
定义:基础互联网提供动态可伸缩的虚拟化资源的计算服务。
分类:分布计算,并行计算,效用计算,网络存储,虚拟化,负载均衡。
服务:iaas、PaaS、SaaS。
2云计算云大数据的关系:相辅相成、水与泵的关系。
3虚拟化
计算虚拟化:宿主机/客户机
网络虚拟化:网卡虚拟化
存储虚拟化:块虚拟化/文件虚拟化、按需分配按量计算。

7技术

1Hadoop:HDFS存储/MapReduce数据处理/HBASE数据库。
2神经网络:通过模拟大脑的思考方式来处理信息。
3自然语言处理
4语义检索
5链接挖掘
6a/b测试

8数据科学家

1定义:统计分析数据并获取数据背后的信息
2模型:探索发现、数据准备、模型规划、模型建造、沟通结果、项目实施。
3角色:使能者、专业人员、深度分析人才。
4技能:
5素质:沟通创业好奇

猜你喜欢

转载自blog.csdn.net/weixin_43924623/article/details/85345055