「每日知识储备」说说我对PCA的理解

2023-10-05, 619 words, 3 min read

不讲公式，从个人角度来理解PCA到底做了些什么？
首先举个例子，解释下为什么要“降维”？

比如当前有10个individual，对他们进行了WGS测序，得到了他们10个人的variants calling结果。想要分析他们在祖源上的远近程度，如何分析？

方法1：针对SNP1～5（SNP1，SNP2，...，SNP5），比如用hamming distance，可以计算得到10个individual中有5个individual（A，B，C，D，E）的hamming distance是0～5，而另外5个individual（F，G，H，I，J）与上述5个individual的hamming distance是7～10，那么我们就可以得到两个分群。

但是再换取另一批SNP数据时，比如SNP100～500时，不仅计算量大，还否定了之前的计算结果，那么这10个individual的祖源到底是什么样的呢？

方法2：针对WGS测序得到的所有variants来重新构建变量，且保证重新构建的每个变量之间是正交的，即不相关，保证原始数据的损失达到最小（这部分用variance来衡量）

重新构建的第一个变量称为PC1，第二个称为PC2，依此类推。而每个主成分代表的variance是依次减少的。若前两个主成分（或者三个）能够解释原始数据比较高的比例，那么我们对数据降维的目的就达到了。

而individual在两个主成分（或者三个）上的distribution，就在一定程度上代表了他们genetic material的差异
- 保证重新构建的变量之间是正交，是为了极大限度地提升对原始数据的提取
- 为什么用variance来衡量，就比如一个标准正态分布，若取它的一个截断分布，那么实际上就损失了一部分方差，因此方差是一个很好的指代信息损失量的指标
利用PC来理解regional population structure

当经过PCA重新组合得到的主成分之后，每个主成分的构成实际上是如下的公式，
$PC1 = \beta*SNP_{1} + \beta*SNP_{2} + ... + \beta*SNP_{3} + ...$
则两个individual如果在PC1轴上距离很远，说明它们在用于构建PC1的SNP上具有比较大的差异，但是如果在PC2轴上距离很近，则说明它们在用于构建PC2的SNP上比较相似，可能形成了regional population structure。

「每日知识储备」说说我对PCA的理解

推荐阅读

「每日知识储备」GWAS中的effect size是什么？