Loading... # PCA 1. PCA(主成分分析): - 适用于连续型数值数据。 - 主要用于降维、数据可视化和数据探索。 - 常用于探索数据中的模式、相关性和异常值。 2. PLS-DA(偏最小二乘判别分析): - 适用于有监督的分类问题。 - 主要用于解决分类问题和模式识别。 - 常用于分析高维数据中的类别之间的差异和相关性。 3. sPLS-DA(稀疏偏最小二乘判别分析): - 适用于高维数据和特征选择。 - 主要用于解决高维数据中的分类问题,并选择最相关的特征。 - 常用于分析基因表达数据、蛋白质组学数据等高维生物学数据。 # 数据缩放 1. Mean centering(均值中心化):适用于需要消除数据整体偏移的情况。它将每个变量的所有值都减去该变量的均值,使得新的均值为0。这种方法主要用于消除数据的整体偏移,使得数据集的中心位于原点。 2. Auto scaling(自动缩放):适用于需要消除变量之间尺度差异的情况。它首先进行均值中心化,然后将每个变量的所有值都除以该变量的标准差,使得新的标准差为1。这种方法主要用于消除数据的尺度差异,使得数据在各个维度上具有相同的重要性。 3. Pareto scaling(Pareto 缩放):适用于需要平衡尺度差异和噪声影响的情况。它首先进行均值中心化,然后将每个变量的所有值都除以该变量的标准差的平方根。这种方法介于均值中心化和自动缩放之间,既考虑了尺度差异,又降低了噪声的影响。 4. Range scaling(范围缩放):适用于需要将数据缩放到固定范围的情况。它首先进行均值中心化,然后将每个变量的所有值都除以该变量的范围(最大值减最小值)。这种方法主要用于将数据缩放到0-1的范围内,使得数据在各个维度上具有相同的尺度。 # 相关性 1. 皮尔森相关性(Pearson Correlation): - 皮尔森相关性是最常用的相关性计算方法,它衡量的是两个连续变量之间的线性关系。 - 它的取值范围是-1到1,其中1表示完全正相关,-1表示完全负相关,0表示无相关性。 - 皮尔森相关性假设数据是正态分布的,且对异常值敏感。 2. 斯皮尔曼相关性(Spearman Correlation): - 斯皮尔曼相关性用于衡量两个序数变量或两个连续变量的单调关系,这种关系可以是非线性的。 - 它的取值范围也是-1到1,含义与皮尔森相关性相同。 - 斯皮尔曼相关性不需要数据是正态分布的,对异常值的影响较小。 总的来说,如果你的数据是正态分布的,并且你想要衡量两个变量之间的线性关系,那么皮尔森相关性可能是更好的选择。如果你的数据不是正态分布的,或者你想要衡量的是单调关系(而不仅仅是线性关系),那么斯皮尔曼相关性可能是更好的选择。 最后修改:2024 年 02 月 04 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏