你可以理解的是很困惑 . 那份文件很糟糕 . 我不得不回到它的基础上(Hyndman,R.J .; Fan,Y . (1996年11月) . "Sample Quantiles in Statistical Packages" . 美国统计学家50(4):361-365 . doi:10.2307/2684934)以获得理解 . 让我们从第一个问题开始吧 .
其中1 <= i <= 9,(jm)/ n <= p
第一部分直接来自论文,但文档编写者省略的是 j = int(pn+m) . 这意味着 Q[i](p) 仅取决于最接近(排序)观察的分数的两个顺序统计 . (对于像我这样不熟悉这个术语的人来说,一系列观察的"order statistics"是排序系列 . )
而且,最后一句话是错的 . 它应该读
此处γ取决于np m的小数部分,g = np m-j
至于 m 这很简单 . m 取决于选择的9种算法中的哪一种 . 所以就像 Q[i] 是分位数函数一样, m 应该被认为是 m[i] . 对于算法1和2, m 为0,对于3, m 为-1/2,对于其他算法,则在下一部分中 .
对于连续样本分位数类型(4到9),样本分位数可以通过k阶统计量与p(k)之间的线性插值获得:p(k)=(k - alpha)/(n - alpha - beta 1),其中α和β是由类型确定的常数 . 此外,m =αp(1-α-β),γ= g .
这真令人困惑 . 文档中所谓的 p(k) 与之前的 p 不同 . p(k) 是plotting position . 在论文中,作者将其写为 p k,这有助于 . 特别是因为在 m 的表达式中, p 是原始 p ,而 m = alpha + p * (1 - alpha - beta) . 从概念上讲,对于算法4-9,插值点( p k, x[k] )以获得解( p ,_ Q[i](p) ) . 每种算法仅在 p k的算法中有所不同 .
至于最后一点,R只是陈述S使用的内容 .
原始论文给出了6个“样本分位数”的理想属性列表,并列出了对#8的偏好,它满足所有这些 . #5满足所有这些,但他们不喜欢它的其他理由(它是更多的现象学而非源于原则) . #2是像我这样的非统计极客会考虑分位数,并且是维基百科中描述的内容 .
顺便说一下,为了回应dreeves answer,Mathematica做了很多不同的事情 . 我想我理解了映射 . 虽然Mathematica 's is easier to understand, (a) it'更容易用无意义的参数射击自己的脚,并且(b)它可以_1873322的算法#2 . (这里是Mathworld's Quantile page,其中指出Mathematica不能做#2,但给出了一个更简单的根据四个参数推广所有其他算法 . )