请选择 进入手机版 | 继续访问电脑版

【非参数统计04】多组数据位置推断:Kruskal-Wallis、Jonckheere-Terpstra

[复制链接]
余峻 发表于 2020-12-31 20:26:37 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
目录导引



这一个系列的条记和整理希望可以资助到正在学习非参数统计的同学。我会逐步更新各个章节的内容。
这一章关于多组数据位置推断问题内容较多
4 多组数据位置推断

4.1 方差分析与实验设计

4.1.1 方差分析回顾

可以参考我写的别的一篇博文:统计学中的各种方差分解
4.1.2 实验设计及种别

实验三原则


  • 重复性原则
  • 随机性原则
  • 适宜性原则
重要组成部门:


  • 因素:处理就是主因素的不同状态
  • 观测:对不同处理下的重复实验
  • 区组:当实验质料不同时候的控制变量
4.2 多重查验问题

思量                              m                          m               m个假设查验,好比查验                              m                          m               m个基因是否有效
                                              H                            0                                  :                                   μ                            j                                  =                         0                         ↔                                   H                            1                                  :                                   μ                            j                                  ≠                         0                         ,                         j                         =                         1                         ,                         2                         ,                         .                         .                         .                         ,                         m                               H_0: \mu_j=0 \leftrightarrow H_1: \mu_j\neq 0,j=1,2,...,m                   H0​:μj​=0↔H1​:μj​​=0,j=1,2,...,m
4.2.1 Bonferroni 矫正法

Bonferroni查验原理如下:


  • 假设总查验的显著性水平为                                   α                              \alpha                  α,查验个数为                                   m                              m                  m,Bonferroni的目的是这么多个查验中出现错误发现False Discover的概率不凌驾                                   α                              \alpha                  α
  • 对于每一个单个的查验,设置固定显著性水平                                             α                            m                                       \frac{\alpha}{m}                  mα​
  • 用FWER(Family-wise error rate)表述就是                                   P                         (                         V                         ⩽                         1                         )                         ⩽                         α                              P(V\leqslant1)\leqslant \alpha                  P(V⩽1)⩽α,这是最狠最保守的查验
4.2.2 BH-FDR 控制法

如果我们只是对FDR进行控制,那么会比Bonferroni开放很多,更多小的差异可以被多重查验所识别出来。
做法


  • 我们对于多重查验得到的                                   p                              p                  p值进行排序,                                             p                                       (                               1                               )                                            ,                                   p                                       (                               2                               )                                            ,                         .                         .                         .                         ,                                   p                                       (                               m                               )                                                 p_{(1)},p_{(2)},...,p_{(m)}                  p(1)​,p(2)​,...,p(m)​
  • 根据设定的显著性水平构造一列显著性水平向量,                                   {                                   i                            m                                  α                                   }                                       i                               =                               1                                      m                                       \{\frac{i}{m}\alpha\}_{i=1}^m                  {mi​α}i=1m​,跟上面的                                   p                              p                  p向量对比
  • 找到                                                        max                               ⁡                                      k                                  [                                   p                                       (                               k                               )                                            ⩽                                   i                            m                                  α                         ]                              \max\limits_{k} [p_{(k)}\leqslant \frac{i}{m}\alpha]                  kmax​[p(k)​⩽mi​α]
  • 拒绝调次序在                                   k                              k                  k前的所有原假设,                                             H                                       (                               1                               )                                            ,                                   H                                       (                               2                               )                                            ,                         .                         .                         .                         ,                                   H                                       (                               k                               )                                                 H_{(1)},H_{(2)},...,H_{(k)}                  H(1)​,H(2)​,...,H(k)​
4.2.3 H-C高阶判断法

应用配景
当查验中存在很多噪声的时候,好比一共有100个查验,有90个都是显然不怎么需要查验,其                                       p                         i                              >                      0.2                          p_i > 0.2               pi​>0.2,这在应用FDR的时候会使得查验尺度变严苛。因为显著性水平向量                                       i                         m                              α                          \frac{i}{m}\alpha               mi​α被不须要的大                              m                          m               m压缩,如果跟                              m                      =                      20                          m=20               m=20相比,只保存10个                                       p                         i                                  p_i               pi​较大的查验在这里头。
换句话说,我们需要一个更强的能在众多噪声中发现更多弱信号的查验,H-C高阶判断法体现不错。
4.3 完全随机设计

4.3.1 数据形式

完全随机区组设计的每一个处理下的观测数不要求一样,这与完全区组设计不同。
4.3.2 Kruskal-Wallis 单因素方差分析

Kruskal-Wallis是Wilcoxon-Mann-Whitney从两样本到多样本上的一个拓展。
4.3.3 两两差异的Dunn 查验

Kruskal-Wallis检测到差异之后通过Dunn查验来判断差异泉源。
4.3.4 Jonckheere-Terpstra 趋势性查验

处理的排序和J-T检出效果有关,处理潜在水平乱序的不可。
4.4 完全随机区组设计

4.4.1 数据形式

在完全随机设计的单因素基础上,增加了一个区组因素,这是由于实验质料的异质性使得实验设计中控制变量的变得须要。
  Chai: 区组是取代了观测的存在,观测是广泛的无限制的,区组是控制变量的观测。
同时,我们要求每一个处理都出现在每一个区组当中。
4.4.2 Freidman 秩方差分析法

由于区组影响,不同区组的数据放在一起算秩没有意义,组内算秩。
4.4.3 Hollander-Wolfe 两处理间比力

当秩方差分析效果表明样本之间存在差异的时候,可以使用Hollander-Wolfe进行两两样本对比,找到差异泉源,跟Dunn在Kruskal-Wallis之后的搞法一样。
4.4.4 随机区组数据的调解秩和查验

当随机区组设计的区组数量较大大概处理组数较小(如10个区组,4个处理),Friedman查验的效果就不是很好了,因为Friedman查验的编秩只在每一个区组内进行,仅限于区组内的效应,不同区组间对比没有意义。而多区组少处理的情况会导致每一个处理的秩和差异不显着。
这里,我们思量消除区组之间的差异性。
接纳调解秩和查验aligned ranks test,也称H-L查验
查验及调解步调
  有结情况
对统计量进行调解
4.4.5 二值变量下的 Cochran 查验

有的时候,数据类型为有-无,0-1,是-否,这种情况下秩的盘算没有意义,可以使用Cochran查验.
假设查验问题
                                              H                            0                                  :                         k                         个                         总                         体                         分                         布                         相                         同                         (                         或                         各                         处                         理                         发                         生                         的                         概                         率                         相                         等                         )                                           H                            1                                  :                         k                         个                         总                         体                         分                         布                         不                         同                         (                         或                         各                         处                         理                         发                         生                         的                         概                         率                         不                         等                         )                               H_0: k个总体分布相同(或各处理发生的概率相等)\\ H_1: k个总体分布不同(或各处理发生的概率不等)                   H0​:k个总体分布相同(或各处理发生的概率相等)H1​:k个总体分布不同(或各处理发生的概率不等)
小心这张表格!正常情况都是区组在横轴,处理在纵轴!!
处理1处理2…处理ksum区组1                                                         n                                  11                                                 n_{11}                        n11​                                                         n                                  12                                                 n_{12}                        n12​…                                                         n                                               1                                     k                                                             n_{1k}                        n1k​                                                         n                                  1.                                                 n_{1.}                        n1.​区组2                                                         n                                  21                                                 n_{21}                        n21​                                                         n                                  22                                                 n_{22}                        n22​…                                                         n                                               2                                     k                                                             n_{2k}                        n2k​                                                         n                                  2.                                                 n_{2.}                        n2.​………………区组b                                                         n                                               b                                     1                                                             n_{b1}                        nb1​                                                         n                                               b                                     2                                                             n_{b2}                        nb2​…                                                         n                                               b                                     k                                                             n_{bk}                        nbk​                                                         n                                               b                                     .                                                             n_{b.}                        nb.​sum                                                         n                                               .                                     1                                                             n_{.1}                        n.1​                                                         n                                               .                                     2                                                             n_{.2}                        n.2​…                                                         n                                               .                                     k                                                             n_{.k}                        n.k​                                                         n                                               .                                     .                                                             n_{..}                        n..​此中                                       n                                   i                            j                                       ∈                      {                      0                      ,                      1                      }                          n_{ij}\in \{0,1\}               nij​∈{0,1}为计数数据,                                       H                         0                                  H_0               H0​建立时,同一区组内所有处理下的发生概率相同                                       p                                   i                            1                                       =                               p                                   i                            2                                       =                      .                      .                      .                      =                               p                                   i                            k                                       =                               p                                   i                            .                                           p_{i1}=p_{i2}=...=p_{ik}=p_{i.}               pi1​=pi2​=...=pik​=pi.​
经过一通复杂的利用,可以得到这样一个Cochran Q值
                                                                     Q                                                                                                 =                                                   ∑                                                       j                                           =                                           1                                                      k                                                                               (                                                           n                                                               .                                                 j                                                                          −                                                           N                                              k                                                                          )                                              2                                                                                    ∑                                                           n                                                               i                                                 .                                                                          (                                           k                                           −                                                           n                                                               i                                                 .                                                                          )                                           /                                           [                                           k                                           (                                           k                                           −                                           1                                           )                                           ]                                                                                                                                                                                                         =                                                                  (                                           k                                           −                                           1                                           )                                           [                                           ∑                                                           n                                                               .                                                 j                                                              2                                                          −                                           (                                           ∑                                                           n                                                               .                                                 j                                                                                          )                                              2                                                          /                                           k                                           ]                                                                     ∑                                                           n                                                               i                                                 .                                                                          −                                           ∑                                                           n                                                               i                                                 .                                                              2                                                          /                                           k                                                                                                                               Q                                                                                                                              ∼                                                                     L                                           ,                                                           H                                              0                                                                                             χ                                                       (                                           k                                           −                                           1                                           )                                                      2                                                                                      \begin{aligned} Q&=\sum_{j=1}^k \frac{(n_{.j}-\frac{N}{k})^2}{\sum n_{i.}(k-n_{i.})/[k(k-1)]} \\ &= \frac{(k-1)[\sum n_{.j}^2-(\sum n_{.j})^2/k]}{\sum n_{i.}-\sum n_{i.}^2/k} \\ Q &\stackrel{\mathcal{L},H_0}{\sim} \chi^2_{(k-1)} \end{aligned}                   QQ​=j=1∑k​∑ni.​(k−ni.​)/[k(k−1)](n.j​−kN​)2​=∑ni.​−∑ni.2​/k(k−1)[∑n.j2​−(∑n.j​)2/k]​∼L,H0​χ(k−1)2​​
4.5 均衡的不完全随机区组设计

4.5.1 数据类型

重要参数                              (                      k                      ,                      b                      ,                      r                      ,                      t                      ,                      λ                      )                          (k,b,r,t,\lambda)               (k,b,r,t,λ)表现 (处理数,区组数,同一处理出现的区组数,区组样本量,每两个处理在同一区组中的相遇次数)
参数性质


  •                                    k                         r                         =                         b                         t                              kr=bt                  kr=bt
  •                                    λ                         (                         k                         −                         1                         )                         =                         r                         (                         t                         −                         1                         )                              \lambda(k-1)=r(t-1)                  λ(k−1)=r(t−1)
  •                                    b                         ⩾                         r                              b\geqslant r                  b⩾r或                                   k                         >                         t                              k>t                  k>t
区组1区组2区组3区组4                                                         n                                               .                                     j                                                             n_{.j}                        n.j​处理173(1)74(1)71(1)3处理275(2.5)67(1)72(2)5.5处理374(2)75(2.5)68(2)6.5处理475(3)72(3)75(3)9                              (                      k                      ,                      b                      ,                      r                      ,                      t                      ,                      λ                      )                      =                      (                      4                      ,                      4                      ,                      3                      ,                      3                      ,                      2                      )                          (k,b,r,t,\lambda)=(4,4,3,3,2)               (k,b,r,t,λ)=(4,4,3,3,2)
4.5.2 Durbin 不完全区组分析法

在均衡设计BIB下使用。
需要先盘算每一个处理的秩和                                       R                                   i                            .                                       =                               ∑                                   j                            =                            1                                  k                                       R                                   i                            j                                           R_{i.}=\sum_{j=1}^kR_{ij}               Ri.​=∑j=1k​Rij​
                                                                     D                                                                                                 =                                                                  12                                           (                                           k                                           −                                           1                                           )                                                                     r                                           k                                           (                                                           t                                              2                                                          −                                           1                                           )                                                                              ∑                                                       i                                           =                                           1                                                      k                                                  [                                                   R                                                       i                                           .                                                                −                                                                  r                                           (                                           t                                           +                                           1                                           )                                                      2                                                                ]                                        2                                                                                                                                                                                           =                                                                  12                                           (                                           k                                           −                                           1                                           )                                                                     r                                           k                                           (                                                           t                                              2                                                          −                                           1                                           )                                                                              ∑                                                       i                                           =                                           1                                                      k                                                                R                                                       i                                           .                                                                −                                                                  3                                           r                                           (                                           k                                           −                                           1                                           )                                           (                                           t                                           +                                           1                                           )                                                                     t                                           −                                           1                                                                                                    \begin{aligned} D&=\frac{12(k-1)}{rk(t^2-1)}\sum_{i=1}^k[R_{i.}-\frac{r(t+1)}{2}]^2 \\ &=\frac{12(k-1)}{rk(t^2-1)}\sum_{i=1}^k R_{i.}-\frac{3r(k-1)(t+1)}{t-1} \end{aligned}                   D​=rk(t2−1)12(k−1)​i=1∑k​[Ri.​−2r(t+1)​]2=rk(t2−1)12(k−1)​i=1∑k​Ri.​−t−13r(k−1)(t+1)​​
大样本下Durbin统计量                              D                      ∼                               χ                                   (                            k                            −                            1                            )                                  2                                  D \sim \chi^2_{(k-1)}               D∼χ(k−1)2​,小样本近似禁绝确。
有结数据
实践表明,值要结的长度不大,结统计量对                              D                          D               D统计量影响不大

来源:https://blog.csdn.net/weixin_45632492/article/details/111656968
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

发布主题

专注素材教程免费分享
全国免费热线电话

18768367769

周一至周日9:00-23:00

反馈建议

27428564@qq.com 在线QQ咨询

扫描二维码关注我们

Powered by Discuz! X3.4© 2001-2013 Comsenz Inc.( 蜀ICP备2021001884号-1 )