Hi,这里是有朴的第二大脑。
很高兴与你相遇
Homepage Archives Tags About Me Links

「每日知识储备」说说我对PCA的理解

  • 不讲公式,从个人角度来理解PCA到底做了些什么?

  • 首先举个例子,解释下为什么要“降维”?

    比如当前有10个individual,对他们进行了WGS测序,得到了他们10个人的variants calling结果。想要分析他们在祖源上的远近程度,如何分析?

    方法1:针对SNP1~5(SNP1,SNP2,...,SNP5),比如用hamming distance,可以计算得到10个individual中有5个individual(A,B,C,D,E)的hamming distance是0~5,而另外5个individual(F,G,H,I,J)与上述5个individual的hamming distance是7~10,那么我们就可以得到两个分群。

    但是再换取另一批SNP数据时,比如SNP100~500时,不仅计算量大,还否定了之前的计算结果,那么这10个individual的祖源到底是什么样的呢?

    方法2:针对WGS测序得到的所有variants来重新构建变量,且保证重新构建的每个变量之间是正交的,即不相关,保证原始数据的损失达到最小(这部分用variance来衡量)

    重新构建的第一个变量称为PC1,第二个称为PC2,依此类推。而每个主成分代表的variance是依次减少的。若前两个主成分(或者三个)能够解释原始数据比较高的比例,那么我们对数据降维的目的就达到了。

    而individual在两个主成分(或者三个)上的distribution,就在一定程度上代表了他们genetic material的差异

    • 保证重新构建的变量之间是正交,是为了极大限度地提升对原始数据的提取
    • 为什么用variance来衡量,就比如一个标准正态分布,若取它的一个截断分布,那么实际上就损失了一部分方差,因此方差是一个很好的指代信息损失量的指标
  • 利用PC来理解regional population structure

    当经过PCA重新组合得到的主成分之后,每个主成分的构成实际上是如下的公式,

    PC1=βSNP1+βSNP2+...+βSNP3+...PC1 = \beta*SNP_{1} + \beta*SNP_{2} + ... + \beta*SNP_{3} + ...

    则两个individual如果在PC1轴上距离很远,说明它们在用于构建PC1的SNP上具有比较大的差异,但是如果在PC2轴上距离很近,则说明它们在用于构建PC2的SNP上比较相似,可能形成了regional population structure。

推荐阅读