pca技术


请输入要查询的词条内容:

pca技术


PCA(principal components analysis)即主成分分析技术,又称主分量分析。主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。

在统计学中,主成分分析PCA是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征.这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面.但是,这也不是一定的,要视具体应用而定.

具体的 PCA 变换的步骤如下:

(1) 第一步计算矩阵 X 的样本的协方差矩阵 S :

(2) 第二步计算协方差矩阵S的本征向量 e1,e2,…,eN的本征值 , i = 1,2,…,N 。本征值按大到小排序: ;

(3)第三步投影数据到本征矢张成的空间之中,这些本征矢相应的本征值为 。现在数据可以在三维空间中展示为云状的点集。

PCA 的目标是寻找 r ( r<n )个新变量,使它们反映事物的主要特征,压缩原有数据矩阵的规模,将特征向量的维数降低,挑选出最少的维数来概括最重要特征。每个新变量是原有变量的线性组合,体现原有变量的综合效果,具有一定的实际含义。这 r 个新变量称为“主成分”,它们可以在很大程度上反映原来 n 个变量的影响,并且这些新变量是互不相关的,也是正交的。通过主成分分析,压缩数据空间,将多元数据的特征在低维空间里直观地表示出来。

相关分词: pca 技术