数据预处理

发布时间 2023-06-08 22:48:41作者: 哎呦哎(iui)

1特种预处理

数据预处理是通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程

内容:
数值型数据的无量纲化:
归一化
标堆化标堆化

特征预处理API
sklearn. preprocessing
了解数值型数据、类别型数据特点
应用MinMaxScaler实现对特征数据进行归一化。
应用StandardScaler实现对特征数据进行标准化

其中一种预处理方法
image
例子:
image
例如对于里面的两个我们计算他的差距的话如果用这个公式:
image
我们会发现它主要取决于里程数,所以我们需要无量纲化
我们需要用到一些方法进行无量纲化,使不同规格的数据转换到同一规格

2.归一化

2.1定义

通过对原始数据进行变换把数据映射到(默认为[0,1])之间

2.2 公式

x'=(x-min)/(max-min)
x''=x'*(mx-mi) + mi

作用于每一列, max为一列的最大值, min为一列的最小值,那么X”为最终结果,mx,mi分别为指定区间值默认mx为1,mi为0

image

image

3.API

sklearn.preprocessing.MinMaxScaler(feature_range=(0,1)
MinMaxScalar.fit_transform(X)
x:numpy array个数的数据[n_samples,n_features]
返回值:转换后的形状相同的array
image