算法时间复杂度分析

精选转载

Fiona_mm 2011-04-07 13:25:35 博主文章分类：c/c++/java

常用的算法的时间复杂度和空间复杂度

排序法	最差时间分析	平均时间复杂度	稳定度	空间复杂度
冒泡排序	O(n²)	O(n²)	稳定	O(1)
快速排序	O(n²)	O(n*log₂n)	不稳定	O(log₂n)~O(n)
选择排序	O(n²)	O(n²)	稳定	O(1)
二叉树排序	O(n²)	O(n*log₂n)	不一顶	O(n)
插入排序	O(n²)	O(n²)	稳定	O(1)
堆排序	O(n*log₂n)	O(n*log₂n)	不稳定	O(1)
希尔排序	O	O	不稳定	O(1)

1、时间复杂度
（1）时间频度一个算法执行所耗费的时间，从理论上是不能算出来的，必须上机运行测试才能知道。但我们不可能也没有必要对每个算法都上机测试，只需知道哪个算法花费的时间多，哪个算法花费的时间少就可以了。并且一个算法花费的时间与算法中语句的执行次数成正比例，哪个算法中语句执行次数多，它花费时间就多。一个算法中的语句执行次数称为语句频度或时间频度。记为T(n)。
（2）时间复杂度在刚才提到的时间频度中，n称为问题的规模，当n不断变化时，时间频度T(n)也会不断变化。但有时我们想知道它变化时呈现什么规律。为此，我们引入时间复杂度概念。一般情况下，算法中基本操作重复执行的次数是问题规模n的某个函数，用T(n)表示，若有某个辅助函数f(n),使得当n趋近于无穷大时，T（n)/f(n)的极限值为不等于零的常数，则称f(n)是T(n)的同数量级函数。记作T(n)=Ｏ(f(n)),称Ｏ(f(n)) 为算法的渐进时间复杂度，简称时间复杂度。
在各种不同算法中，若算法中语句执行次数为一个常数，则时间复杂度为O(1),另外，在时间频度不相同时，时间复杂度有可能相同，如T(n)=n2+3n+4与T(n)=4n2+2n+1它们的频度不同，但时间复杂度相同，都为O(n2)。按数量级递增排列，常见的时间复杂度有：常数阶O(1),对数阶O(log2n),线性阶O(n), 线性对数阶O(nlog2n),平方阶O(n2)，立方阶O(n3),...， k次方阶O(nk),指数阶O(2n)。随着问题规模n的不断增大，上述时间复杂度不断增大，算法的执行效率越低。 2、空间复杂度与时间复杂度类似，空间复杂度是指算法在计算机内执行时所需存储空间的度量。记作: S(n)=O(f(n)) 我们一般所讨论的是除正常占用内存开销外的辅助存储单元规模。讨论方法与时间复杂度类似，不再赘述。
（3）渐进时间复杂度评价算法时间性能　　主要用算法时间复杂度的数量级(即算法的渐近时间复杂度)评价一个算法的时间性能。

2、类似于时间复杂度的讨论，一个算法的空间复杂度(Space Complexity)S(n)定义为该算法所耗费的存储空间，它也是问题规模n的函数。渐近空间复杂度也常常简称为空间复杂度。
空间复杂度(Space Complexity)是对一个算法在运行过程中临时占用存储空间大小的量度。一个算法在计算机存储器上所占用的存储空间，包括存储算法本身所占用的存储空间，算法的输入输出数据所占用的存储空间和算法在运行过程中临时占用的存储空间这三个方面。算法的输入输出数据所占用的存储空间是由要解决的问题决定的，是通过参数表由调用函数传递而来的，它不随本算法的不同而改变。存储算法本身所占用的存储空间与算法书写的长短成正比，要压缩这方面的存储空间，就必须编写出较短的算法。算法在运行过程中临时占用的存储空间随算法的不同而异，有的算法只需要占用少量的临时工作单元，而且不随问题规模的大小而改变，我们称这种算法是“就地\"进行的，是节省存储的算法，如这一节介绍过的几个算法都是如此；有的算法需要占用的临时工作单元数与解决问题的规模n有关，它随着n的增大而增大，当n较大时，将占用较多的存储单元，例如将在第九章介绍的快速排序和归并排序算法就属于这种情况。

如当一个算法的空间复杂度为一个常量，即不随被处理数据量n的大小而改变时，可表示为O(1)；当一个算法的空间复杂度与以2为底的n的对数成正比时，可表示为0(10g2n)；当一个算法的空I司复杂度与n成线性比例关系时，可表示为0(n).若形参为数组，则只需要为它分配一个存储由实参传送来的一个地址指针的空间，即一个机器字长空间；若形参为引用方式，则也只需要为其分配存储一个地址的空间，用它来存储对应实参变量的地址，以便由系统自动引用实参变量。

算法时间复杂度分析示例
      为了便于朋友们理解，我将不会采用教科书上惯用的快速排序、合并排序等经典示例进行分析，而是使用一个十分简单的算法作为示例。我们先来定义问题。
      问题定义：
      输入——此问题输入为一个有序序列，其元素个数为n，n为大于零的整数。序列中的元素为从1到n这n个整数，但其顺序为完全随机。
      输出——元素n所在的位置。（第一个元素位置为1）

      这个问题非常简单，下面直接给出其解决算法之一（伪代码）：

      LocationN(A)
      {
            for(int i=1;i<=n;i++)-----------------------t1
            {
                  if(A[i] == n) ----------------------------t2
                        { return i; }------------------------t3
            }
      }

      我们来看看这个算法。其中t1、t2和t3分别表示此行代码执行一次需要的时间。
      首先，输入规模n是影响算法执行时间的因素之一。在n固定的情况下，不同的输入序列也会影响其执行时间。最好情况下，n就排在序列的第一个位置，那么此时的运行时间为“t1+t2+t3”。最坏情况下，n排在序列最后一位，则运行时间为“n*t1+n*t2+t3=(t1+t2)*n+t3”。可以看到，最好情况下运行时间是一个常数，而最坏情况下运行时间是输入规模的线性函数。那么，平均情况如何呢？
      问题定义说输入序列完全随机，即n出现在1...n这n个位置上是等可能的，即概率均为1/n。而平均情况下的执行次数即为执行次数的数学期望，其解为：

      E
      = p(n=1)*1+p(n=2)*2+...+p(n=n)*n
      = (1/n)*(1+2+...+n)
      = (1/n)*((n/2)*(1+n))
      = (n+1)/2

      即在平均情况下for循环要执行(n+1)/2次，则平均运行时间为“(t1+t2)*(n+1)/2+t3”。
      由此我们得出分析结论：
      t1+t2+t3 <= F(n) <= (t1+t2)*n+t3，在平均情况下F(n) = (t1+t2)*(n+1)/2+t3

算法的渐近时间复杂度
      以上分析，我们对算法的时间复杂度F(n)进行了精确分析。但是，很多时候，我们不需要进行如此精确的分析，原因有下：
      1.在较复杂的算法中，进行精确分析是非常复杂的。
      2.实际上，大多数时候我们并不关心F(n)的精确度量，而只是关心其量级。
      基于此，提出渐近时间复杂度的概念。在正式给出渐近时间复杂度之前，要先给出几个数学定义：

      定义一：Θ(g(n))={f(n) | 如果存在正常数c1、c2和正整数n0，使得当n>=n0时，0<c1g(n)<=f(n)<=c2g(n)恒成立}
      定义二：Ο(g(n))={f(n) | 如果存在正常数c和正整数n0，使得当n>=n0时，0<=f(n)<=cg(n)恒成立}
      定义三：Ω(g(n))={f(n) | 如果存在正常数c和正整数n0，使得当n>=n0时，0<=cg(n)<=f(n)恒成立}

      可以看到，三个定义其实都定义了一个函数集合，只不过集合中的函数需要满足的条件不同。有了以上定义，就可以定义渐近时间复杂度了。
      不过这里还有个问题：F(n)不是确定的，他是在一个范围内变动的，那么我们关心哪个F(n)呢？一般我们在分析算法时，使用最坏情况下的F(n)来评价算法效率，原因有如下两点：
      1.如果知道了最坏情况，我们就可以保证算法在任何时候都不能比这个情况更坏了。
      2.很多时候，算法运行发生最坏情况的概率还是很大的，如查找问题中待查元素不存在的情况。且在很多时候，平均情况的渐近时间复杂度和最坏情况的渐近时间复杂度是一个量级的。

      于是给出如下定义：设F(n)为算法A在最坏情况下F(n)，则如果F(n)属于Θ(g(n))，则说算法A的渐近时间复杂度为g(n)，且g(n)为F(n)的渐近确界。

      还是以上面的例子为例，则在上面定义中F(n) = (t1+t2)*n+t3。则F(n)的渐近确界为n，其证明如下：

      证明：
      设c1=t1+t2，c2=t1+t2+t3，n0=2
      又因为 t1,t2,t3均大于0
      则，当n>n0时，0<c1n<=F(n)<=c2n 即 0<(t1+t2)*n<=(t1+t2)*n+t3<=(t1+t2+t3)*n恒成立。
      所以 F(n)属于Θ(n)
      所以 n是F(n)的渐近确界
      证毕

      在实际应用中，我们一般都是使用渐近时间复杂度代替实际时间复杂度来进行算法效率分析。一般认为，一个渐近复杂度为n的算法要优于渐近复杂度为n^2的算法。注意，这并不是说渐近复杂度为n的算法在任何情况下都一定更高效，而是说在输入规模足够大后（大于临界条件n0），则前一个算法的最坏情况总是好于后一个算法的最坏情况。事实证明，在实践中这种分析是合理且有效的。
      类似的，还可以给出算法时间复杂度的上确界和下确界：
      设F(n)为算法A在最坏情况下F(n)，则如果F(n)属于Ο(g(n))，则说算法A的渐近时间复杂度上限为g(n)，且g(n)为F(n)的渐近上确界。
      设F(n)为算法A在最坏情况下F(n)，则如果F(n)属于Ω(g(n))，则说算法A的渐近时间复杂度下限为g(n)，且g(n)为F(n)的渐近下确界。
      这里一定要注意，由于我们是以F(n)最坏情况分析的，所以，我们可以100%保证在输入规模超过临界条件n0时，算法的运行时间一定不会高于渐近上确界，但是并不能100%保证算法运行时间不会低于渐近下确界，而只能100%保证算法的最坏运行时间不会低于渐近下确界。