Hi,这里是有朴的第二大脑。
很高兴与你相遇
Homepage Archives Tags About Me Links

「生物信息学中的Math」001|浅谈统计检验效能和FDR

什么是统计检验的效能(power)?

我们首先来回顾一下,在假设检验中,我们需要什么。

(1)原假设(H0H_{0}):可以认为是辩论赛中,保守一方的观点(e.g. 超级英雄和普通人没啥区别)
(2)备择假设(HA/H1H_{A}/H_{1}):可以类比为辩论赛中,激进一方的观点(e.g. 超级英雄就是爷,就是比普通人牛)

在做计算的过程中,会涉及到一个非常重要的数值 —— αα(一般取0.05 或 0.01)

αα的含义是:显著性水平、一类错误发生的概率(Type I Error)、弃真错误发生的概率。

Note:α —— 一类错误、弃真错误、假阳性错误

从这里有需要再引入几个概念,如下表:

H0H_{0}是正确的 H0H_{0}是错误的
接受H0H_{0} 接受H0H_{0}1α1-α ββ错误
拒绝H0H_{0} αα错误 接受H1H_{1}1β1-β

β从α衍生出来,是二类错误发生的概率(Type II Error)、取伪错误发生的概率。

在假设检验过程中,我们把拒绝原假设后,接受正确的备择假设的概率称为统计检验的效能/功效(statistical power),因此其在数值上等于1β1-β
【个人理解】1β1-β,实际上就是确定两个样本的总体有差异之后,假设检验能够顺利根据样本推断出真实的总体信息的概率。

什么是假阳性(false positive rate)?

结合时事,我就拿新冠检测作为例子。

假设对100个人进行核酸检测,检测结果分别如下:

被测对象真实情况:阳性 被测对象真实情况:阴性
新冠检测结果:阳性 5 2
新冠检测结果:阴性 3 90

可以得到2个指标的计算结果,如下:
(1)true positve rate(sensitivity,即灵敏度):检测出的真实阳性样本数 除以 所有真实阳性样本数
55+3=0.625 \frac{5}{5+3} = 0.625
(2)false positive rate:检测出的阳性样本数 除以 所有真实阴性样本数
22+90=0.0217 \frac{2}{2+90} = 0.0217
还有一个非常重要的计算指标,是特异度(specificity),计算公式如下:
9090+2=0.9783 \frac{90}{90+2}= 0.9783
一张找来的总结表:

参考资料

[1] https://www.jianshu.com/p/d5ea74ca61f8
[2] https://blog.csdn.net/fish2009122/article/details/110040002
[3] 统计功效, 百度百科
[4] 真阳性率, 百度百度
[5] 假阳性率, 百度百科
[6] https://zhwhong.cn/2017/04/14/ROC-AUC-Precision-Recall-analysis/