常用的数据无量纲化方法

企业开发 2023-08-08 17:39:41 阅读次数: 0

常用的数据无量纲方法

常用的数据无量纲方法都有什么？
- 1.min-max归一化
- 2.z-score标准化

常用的数据无量纲方法都有什么？

1.min-max归一化

该方法是对原始数据进行线性变换，将其映射到[0,1]之间（[-1,1]之间也行）。
在这里插入图片描述

def Min_Max_Scaler(X,feature_range=(0,1),axis=0):
    '''
    最大最小归一化
    :param X: data
    :param feature_range: 选择的特征区间[0,1]，其他值也行
    :param axis: 数据方向， axis=0 为列，axis=1 为行
    :return:
    '''
    X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
    X_scaled = X_std * (feature_range[1] - feature_range[0]) + feature_range[0]
    return X_scaled

优点：

可以去除量纲
如果某特征的方差很小，数据之间的差异不明显，通过归一化可以把数据之间的差异放大。
维持稀疏矩阵中为0的条目。
如果想保留原始数据中由标准差所反映的潜在权重关系应该选择min-max归一化

缺点：

由于最大值与最小值可能是动态变化的，同时也非常容易受噪声(异常点、离群点)影响，因此一般适合小数据的场景。

2.z-score标准化

z-score标准化也叫标准差标准化，代表的是分值偏离均值的程度，经过处理的数据符合标准正态分布，即均值为0，标准差为1。是重新创建一个新的数据分布的方法。

其中，x是原始数据，u是样本均值，σ是样本标准差。
在这里插入图片描述
该方法假设数据是正态分布，但这个要求并不十分严格，如果数据是正态分布或者数据量很大的时候，则该技术会更有效。

优点：

z-score标准化更加注重数据集中样本的分布状况。由于具有一定的样本个数，所以出现少量的异常点对于平均值和标准差的影响较小，因此标准化的结果也不会具有很大的偏差。
不仅能够去除量纲，还能够把所有维度的变量一视同仁(因为每个维度都服从均值为0、方差1的正态分布)

缺点：

Z-Score方法是一种中心化方法，会改变原有数据的分布结构，不适合用于对稀疏数据做处理。
一旦原始数据的分布不接近于一般正态分布，则标准化的效果会不好。

猜你喜欢

转载自blog.csdn.net/CSTGYinZong/article/details/127097617

常用的数据无量纲化方法

机器学习中的数据无量纲化小整理

数学分析模型（一）：数据的无量纲处理方法及示例（附完整代码）

量纲与无量纲、标准化、归一化、正则化

量纲与无量纲，标准化、归一化、正则化

机器学习实战基础（九）：sklearn中的数据预处理和特征工程（二）数据预处理 Preprocessing & Impute 之数据无量纲化

数据挖掘的步骤——降维处理前一定记得进行无量纲化处理

机器学习笔记（三）——归一化、KD树、数值型特征无量纲化、数值型特征分箱等

数据去量纲化（归一化与标准化）

特征工程-幅度调整-无量纲化（二）：归一化和标准化案例，看不懂你打我

第三章：数据预处理和特征工程：一、预处理 1.数据无量纲化 1.1 归一化 1.2 数据标准化 2.缺失值的处理 3.处理分类型特征独热编码 4.处理连续型特征分为多个

数据的预处理之量纲消除

【Python&RS】基于Python对栅格数据进行归一化（统一量纲至0~1）

常用数据标准化方法

常用的数据标准化方法

数据归一化和常用的归一化方法

数据预处理——数据可视化的常用方法

疑问：数据清洗过程中的“归一化”、“标准化”等等去量纲的操作应该在数据集划分前还是在数据集划分后？

常用数据标准化方法python实现

三种常用数据标准化方法

数据归一化常用的两种方法

数据归一化和两种常用的归一化方法

python 数据标准化常用方法，z-score\min-max标准化

常用归一化方法

常用特征离散化方法

数据迁移常用方法

机器学习-两种常用的数据归一化方法

Matplotlib数据可视化——subplot的另外三种常用方法

C++语言stream类型 & 读取格式化数据常用方法

《About量纲--笔记》

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)