help数据规范化算法描述 数据规范化是指对原始数据进行处理,将数据映射到一个统一区间(如0-1),目的是消除量纲不同和数据范围不同对算法的影响
Min-max标准化 ,
它通过线性转换将每行的数据映射到一个定范围(如0-1)内。在不涉及距离度量、协方差计算、数据不符合正态分布(高斯分布)的时候,可以使用该方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0, 255]的范围。
Z-score标准化
μ指变量均值,σ指变量标准差,数据范围在实数内,Z-score将每行的数据标准化,数据的均值为0,方差为1,可以去除不同因子量纲的影响。
Mean标准化
Mean按行方向的标准化数据,数据将全部位于-1到1之间。
Center中心化
每行通过减去(该行)均值来中心化数据,避免了范围和方差的影响。该方法与标准化的区别就是中心化的目的是增加基向量的正交性,标准化的目的是消除特征之间的差异性。
Pareto标准化
σ标准差的平方根。按行操作数据,它可以消除负值的影响。
对数转换 将数据取对数,可以使用log函数。对数据进行对数转换,可以使数据范围更加紧凑。
相对丰度标准化
按列总和标准化后数据全部位于0到1之间。