随机变量 Random Variable
随机变量和一般数据上的变量不一样,通常用大写字母表示,如X、Y、Z,不是个参数而是function,即函数。例如,下面表示明天是否下雨的随机变量X,如下。又例如X=每小时经过路口的车辆,随机变量是个描述,而不是方程中的变量。
随机变量有两种,一种是离散的(discrete),一种是连续的(continue)。离散的如上面例子是可以枚举,而连续的随机变量的取值是infinite的。
概率密度函数
概率probability,以roll dice为例,P(X=6)=1/6,P(X>=5)=1/3,即6点的骰子概率为1/6,大于等于5点的骰子概率为1/3。这是离散的概率例子。
对于连续的,例如明天雨量。使用的是probability density function,下图是个分布例子。
P(X=2)是多少,0.5吗?不对。精确雨量要2.00000……,概率为0。对于连续随机变量,概率的统计是一个范围,例如P(|X-2|<0.3),相当于计算area。以f(x)表示随机variable,则为
二项分布
二项分布binomial distribution,有个更熟悉的名字normal distribution正态分布。随机变量处于两种状态,例如硬币的正面或反面,投篮投中或者miss。如果是公平随机,例如抛硬币,每个状态出现的几率是0.5。对于投篮,可能是P(shoot)=0.7,P(miss)=0.3。
如何计算P(X=n),n为出现某种状态的次数。假设一共投篮N次篮(N=6),有多少种可能组合,例如出现2次命中的组合。简单说我们有A、B两个字母,填入6个空格,可以有多少种组合。为6×5,如果有A、B、C三个字母,则有6×5×4,即N!/(N-n)!
由于在计算概率中,A和B的先后顺序没有影响,即无先后顺序,则还要除以n!(A、B或A、B、C本身的排列组合),在组合中表述为:
我们得到了组合次数,每个组合出现的概率是多少?投6中2为P(shoot)p(shoot)p(miss)p(miss)p(miss)p(miss),将每个位置出现的概率乘前来就可以,即p^n×(1-p)^(N-n),总的概率为:
其实倒不需要去死记硬背,只要知晓计算原理,很容易推导。
这些概率非常适合在Excel中进行计算和画图。在Excel有个小技巧我一直不会,如果固定选某个单元,选择后用F4,在copy这个公式的时候,就不会飘移位置。
期望值E(X)
期望值Exptected value of a random varaible,实际就是population mean,有些时候总本是infinite,例如无数次仍投硬币的结果,可通过频率×数值求和获得。
二项分布的E(X)
如果是二项分布,n表示次数,则E(X)=np,这个推导过程很有趣
二项分布的variance(方差)
和期望值一样,这属于头脑体操,其基本方式亦也差不多。将证明方差为np(1-p)。这部分不是Khan公开课,讲正态分布时涉及二项式方差的计算公式,兴致来了,玩一下。