数据理解 - 代码天地

数据理解

其他 2018-07-16 05:15:34 阅读次数: 0

Pima Indians糖尿病发病情况数据集

下载地址：http://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes

描述了患者医疗记录数据，以及他们是否在五年内发生糖尿病。这是一个二元分类问题。（糖尿病为1或非糖尿病为0），描述每个患者的输入变量是数值类型，具有不同的尺度。

from pandas import read_csv

#简单地查看数据

#显示数据的前10行

filename = 'pima_data.csv'

names = ['preg','plas','pres','skin','test','mass','pedi','age','class']

data = read_csv(filename,names=names)

print(data.head(10))

#数据的维度

print(data.shape)

#查看数据属性和类型

#字符串会被转化成浮点数或整数，以便于计算和分类

print(data.dtypes)

#描述性统计

#数据记录数、平均值、标准方差、最小值、下四分位数、中位数、上四分位数、最大值

print(data.describe())

#数据分组分布(适用于分类算法)

#数据分布是否平衡

print(data.groupby('class').size())

#数据属性的相关性是指数据的两个属性是否互相影响

#通用的计算两个属性的相关性的方法是皮尔逊相关系数，介于1和-1之间的值

#1表示变量完全正相关，0表示无关，-1表示完全负相关。

#数据特征的相关性比较高，应该考虑对特征进行降维处理

print(data.corr(method='pearson'))

#数据的分布分析

#高斯分布又叫正态分布，高斯分布的曲线：两头低、中间高、左右对称

#skew()函数的结果显示了数据分布是左偏还是右偏，当数据接近于0时，表示数据的偏差非常小

print(data.skew())

总结：通过对数据的理解，选择有效的算法。

猜你喜欢

转载自blog.csdn.net/zhangyuee19501107/article/details/81051683

数据库概论的关系数据理论（保证理解透彻）

数据理解

元数据理解

数据库笔记（关系数据理论）

数据库——关系数据理论

数据库--关系数据理论

数据库6：关系数据理论

数据库系统概念关系数据理论深入理解第一范式(1NF)、第二范式(2NF)、第三范式(3NF)和BC范式(BCNF)

大数据理论体系总结--数据仓库管理与全链路数据体系

数据库系统概论——关系数据理论与数据库设计

大数据理论篇 No.1-浅谈Flink中的数据传输

《机器学习Python实践》第6章——数据理解

Vue渲染数据理解以及Vue指令

ACE2005系列1 - 基本数据理解

7.3学习笔记（数据理解、筛选、计算分析）

《数据库系统概论》第六章关系数据理论

《数据库系统概论》第六章关系数据理论

数据库总结作业关系数据理论六

数据库原理——关系数据理论部分概念总结

数据库系统概论（第六章：关系数据理论）

数据库系统概论——第六章关系数据理论

数据库系统概论——关系数据理论

数据库作业15：第六章：关系数据理论

数据库-第六章关系数据理论-6.2.2 码

数据库-第六章关系数据理论-6.5 小结

数据库-第六章关系数据理论-6.2.3 范式

【数据库作业15】第六章：关系数据理论

数据库-第六章关系数据理论-6.2.1 函数依赖

数据库关系数据理论基本概念—函数依赖截图笔记

数据库系统概论（第六章关系数据理论）

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)