前2天,老板有个报表需求,需要用到中位数算法。而MYSQL没有直接提供median()这样的直接算中位数的算法。于是就在百度上百度了下。看到有为朋友提供了一种算法。但是只要代码,没有解释。花了挺久的时间,终于理解了这种算法的含义。

源代码如下:

create table state_mid
  
              as
  
            select user_id,avg(price)
  
            from (
  
                    
 select e.user_id, e.price
  
                     from 
producte e, producte d
  
                    
 where e.user_id = d.user_id
  
                    
 group by e.user_id, e.price
  
                    
 having sum(case when e.price = d.price then 1 else 0 end)>= 
abs(sum(sign(e.price - d.price)))
  
                    
)t
  
             group by user_id。

      首先,向写出这位代码的前辈致敬。

      这段代码的精髓地方,就在于

      having sum(case when e.price = d.price then 1 else 0 end)>= abs(sum(sign(e.price - d.price)))

    理解这段代码,其实就是理解了中位数的一个体征:

    1、当一列数列的数量N是奇数的时候。则中位数的那个数字在数列中的数量>=中位数减去所有数字的结果的符号值(1,0,-1中的一个)的和的绝对值。

      简单的例子:

        例:数列为1,2,3,4,5  

            可以看出它的中位数为3,它的数量是1.所以

            而它减去所以数字的差值为2,1,0,-1,-2.符号值就为1,1,0,-1,-1.符号值的和为1+1+0+(-1)+             (-1)=0.所以绝对值也为0.所以abs(sum(sign(e.price - d.price)))=0

            因此 having sum(case when e.price = d.price then 1 else 0 end)>= abs(sum(sign(e.price              - d.price)))成立。

            接下来我们看下如果是2的话,会不会条件成立。首先2的数量是1,它与所有数字的差值为                   1,0,-1,-2,-3,符号值为1,0,-1,-1,-1。和为-2,绝对值就为2.可以看出,这就和我们要求的             条件不符合,就会被剔除。

            其他种数列的话大家也可以试试,这里举一个最简单的例子用于方便理解

     2、当一列数列的数量N是偶数的时候。这时候用条件筛选出来的就会是最靠近中位数的那两个数字。则为最靠近中位数的那两个数字在数列中的数量>=那两个数字减去所有数字的结果的符号值(1,0,-1中的一个)的和的绝对值。ps:我们都知道,当数列数量N为偶数的时候,中位数就是用最靠近中位数的那两个数字求平均值得来的。

     所以     select user_id,avg(price)
                       from producte e, producte d

                       where e.user_id = d.user_id
                       group by e.user_id, e.price
                       having sum(case when e.price = d.price then 1 else 0 end)>= abs(sum(sign(e.price - d.price)))

                     就是帮我们找出了最中间的那一个数字(N为奇数的时候)或者两个数字(N为偶数的时候)。

      最后在求出这一个数字或者两个数字的平均值,就是我们所要求的中位数了。