不讲公式,从个人角度来理解PCA到底做了些什么? 首先举个例子,解释下为什么要“降维”? 比如当前有10个individual,对他们进行了WGS测序,得到了他们10个人的variants calling结果。想要分析他们在祖源上的远近程度,如何分析? 方法1:针对SNP1~5(SNP1,SNP2,...,SNP5),比如用hamming distance,可以计算得到10个individual中有5个individual(A,B,C,D,E)的hamming distance是0~5,而另外5个individual(F,G,H,I,J)与上述5个individual的hamming distance是7~10,那么我们就可以得到两个分群。 但是再换取另一批SNP数据时,比如SNP100~500时,不仅计算量大,还否定了之前的计算结果,那么这10个individual的祖源到底是什么样的呢? 方法2:针对WGS测序得到的所有variants来重新构建变量,且保证重新构建的每个变量之间是正交的,即不相关,保证原始数据的损失达到最小(这部分用variance来衡量) 重新构建的第一个变量称为PC1,第二个称为PC2,依此类推。而每个主成分代表的variance是依次减少的。若前两个主成分(或者三个)能够解释原始数据比较高的比例,那么我们对数据降维的目的就达到了。 而individual在两个主成分(或者三个)上的distribution,就在一定程度上代表了他们genetic material的差异 利用PC来理解regional population structure 当经过PCA重新组合得到的主成分之后,每个主成分的构成实际上是如下的公式,
则两个individual如果在PC1轴上距离很远,说明它们在用于构建PC1的SNP上具有比较大的差异,但是如果在PC2轴上距离很近,则说明它们在用于构建PC2的SNP上比较相似,可能形成了regional population structure。
推荐阅读
Hi,这里是有朴的第二大脑。
很高兴与你相遇
很高兴与你相遇