「Population Genetics随笔」002｜FST - By Weir and Cockerham

2023-05-10, 903 words, 5 min read

Weir and Cockerham | Weighted $F_{ST}$ 计算公式

Wright提出的FST原始版本，并没有考虑到sample size对 $F_{ST}$ 计算的影响，因此才有了之后Weir and Cockerham对 $F_{ST}$ 计算的改进。

而在展开介绍Weir和Cockerhem是如何计算 $F_{ST}$ 之前，先看看Wright是如何计算，

θ，即指代 $F_{ST}$ 。

在WC $F_{ST}$ estimator中，其计算公式如下，

Note：该版本计算得到的FST，与vcftools略有不同，尚且认为是自己写作了吧。

但是上述文献中最终给出的，也仅仅是FST的最终计算公式，没有给出一个更加详尽的推导。

‍

如下的理解来自02年Weir发表对应文献/tutorial。

首选需要阐明的几个点，

$θ$ （ $F_{ST}$ ），从最简单的意义上可以理解为两个allele来自同一个ancestor的概率，即IBD（identity by descent），但是更为直观的general，则为从任意一个或不同的population中抽样得到两个allele，他们之间的correlation coefficient

1）假设现在一个sample中，第j个allele，若其碱基类型为μ，则等于1；若其碱基类型不为μ，则等于0。用 $x_{jμ}$ 来表示，

那么现在针对期望population allele frequency为如下的形式，

Note：此处公式存在一点问题（个人角度），应该论述为 $ε(\frac{\sum_{n=i}^{n}x_{ju}}{n})=p_{μ}$

2）但是现在不从一个sample的角度考虑，而是从2个population之间的角度考虑，

Note：若前提为non-random mating，则说明两个群体之间存在了divergence、isolation等

因此，此时的 $θ$ 进一步引申为了衡量population differentiation的指标。

而针对sample allele frequency则由如下的公式计算得到，

且由于不同population size，抽样得到的sample计算出来的 $\tilde{p}_{μ}$ 存在偏差（Nicolas提出其服从参数为 $p_{u}，π_{μ}·θ_{μ}$ 的正态分布）

而Weir于1984年提出的Weighted $F_{ST}$ ，为了消除不同population size对衡量 $θ$ 的影响，构建了如下的两个平方差，

最终 $\hat{θ}_{Mμ}$ 则表示为，

‍

用bedtools + R tidyverse来计算每个gene的FST忒慢了（这怎么“Have a nice day”），欢迎有缘人后台留言优秀方法！

population genetics