数理统计10.15 | 幂律分布

  • 定义
  • 示例
  • 幂律与“长尾”
  • 克莱伯定律(Kleiber's Law)
  • Zipf定律:书籍中单词频率的分布
  • Pareto定律(帕累托定律)
  • 性质
  • 标度不变性 (Scale invariance)
  • 缺失完备定义的均值 (Lack of well-defined average value
  • 普适性(Universality)



郑梓豪 · 10 个月前


“从第一次看到 人类行为时空特性的统计力学 时接触Power-Law Distribution,距这次工作上真正要利用起来的时候,已快一年。这一次,我决定花一些时间,向大家介绍一下与此相关的一些东西。包括背景、概念,以及可能的价值。

*建议大家抽时间看看周涛老师的论文-以便对问题有更清晰的认识。此文不过是对该文的转述。”

检验符合幂律分布R语言 幂律分布期望_Universal

定义

  • 幂律分布是复杂网络中的一个概念。
  • 科学家对幂律关系感兴趣,部分是因为某些机制服从幂律关系所展示出的简洁性。
  • 物理世界中幂律关系无处不在, 部分是由于维度的限制;而在复杂系统中, 幂律通常被认为是层级或特定随机过程的特征。帕累托的收入分配定律, 分形的结构自相似性, 以及生物系统中的克莱伯定律,都是比较著名的幂律分布实例。
  • 幂律(power law)的最显著特征就是,等级越高则越不均衡。其数学原理很简单——幂律描述的是这样一组数据,其第n个位置的秩(rank)是第1个位置的秩的1/n。对于一个纯幂律分布,第一位与第二位之间的差距要大于第二位与第三位之间的差距,以此类推。以维基百科的文章编辑为例,你可以料到排名第二的最活跃用户的编辑量只及第一名编辑量的一半,而排名第10的只做了后者的1/10。这也是所谓“80/20法则”背后的形态。

示例

  • 从物理学(例如沙堆雪崩),生物学(例如物种灭绝和体重)以及社会科学(例如城市规模和收入)领域的研究中,目前已经探讨了超过一百种幂律分布。其中包括:气溶胶光学中的Angstrom指数、复杂介质中声衰减的频率依赖性、心理物理学中的Stevens幂律、斯蒂芬-玻耳兹曼定律(The Stefan–Boltzmann law)等等,下面就简单介绍三个应用最广泛的示例。

幂律与“长尾”

检验符合幂律分布R语言 幂律分布期望_数理统计_02

  • 大部分情况下,回答在该时间段里收到赞同的数目是很少的;而一次性拿到很多赞的概率是很低的。同时,图也显示该分布有长尾的特征。长尾的意思是说,它的尾部比指数分布要厚;简单说来,就是:在指数分布的情况下,随着单位时间内事件发生次数的增多,其概率是指数下降的。而我们这次要介绍的幂律分布,其下降速度是一个幂函数,速度比指数分布要慢得多
    (附:指数分布公式和pdf)
    有趣案例:一个指数分布“卖馒头”的案例:

克莱伯定律(Kleiber’s Law)

在1932年,生物学家克莱伯做了一组实验,他将各种哺乳动物拉到称上称体重作为横坐标,大到几顿重的大象,小到几十克的耗子,然后通过它们在单位时间内呼出的二氧化碳,分别测量出它们的新陈代谢率作为纵坐标。

得出的结果让他大吃一惊。当横纵坐标分别取对数之后,所有的动物都齐刷刷地站在了一条直线上,这条直线的斜率为3/4。生物的多样性令人叹为观止,可竟然出现了在数学上如此统一的规律。

检验符合幂律分布R语言 幂律分布期望_数理统计_03

Zipf定律:书籍中单词频率的分布

Zipf定律是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比
所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被视作任何与幂定律概率分布有关机制的参考

1932年,哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的排名序号的常数次幂存在简单的反比关系:
P(r) ~r^-α
这种分布就称为Zipf定律,它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用

Pareto定律(帕累托定律)

19世纪的意大利经济学家Pareto研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20 法则,即20%的人口占据了80%的社会财富. 个人收入X 不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系: P [X ≥x ]~x - k ,此式即为Pareto定律(帕累托定律)

性质

标度不变性 (Scale invariance)

  • 如果我们取用两者( 和 )的对数,将会得到一个线性关系,呈现在双对数图上就是一条直线,这通常被看作幂律的标志。
  • 对于实际数据, 这种线性是幂律关系数据的必要条件, 但并不是充分条件。实际上, 有许多方法可以生成模拟此指数行为的有限数量的数据, 但在它们的渐近极限中, 不是真正的幂律 (例如, 某些数据的生成过程可能遵循对数正态分布,而不是幂律分布)。

缺失完备定义的均值 (Lack of well-defined average value

自然界中, 大多数幂律分布的指数使得其具有完备定义的均值(K>2嘛),但其方差却无穷大,这意味着它们有可能成为“黑天鹅”行为。

普适性(Universality)

  • 例如, 在物理学中, 热力系统中的相变与某些量服从幂律分布有关, 它们的指数被称为系统的临界指数( critical exponents)。具有相同的临界指数的不同系统——即它们在接近临界状态(criticality)时表现出相同的标度行为——可以通过重整化理论来证明,他们的基本动力学相同。例如, 水和 CO2 在沸点上的行为在相同的普适类中, 因为它们具有相同的临界指数。