为什么要学习数算
随着应用程序变的越来越复杂,我们最常思考的问题无非下面2个:
- 如何存储海量数据?
- 如何从海量数据中操纵所需要的数据?
为了解决上述问题,我们需要有合理的机制来规划如何存储数据,那么如何存储数据即为数据的结构。
同时,我们还需要制定一系列方案,来思考如何从海量数据中进行增、删、改、查,这一方案的实现即程序的算法。
尼克劳斯·埃米尔·维尔特(n.writh)说过一句很著名的话:
程序 = 算法 + 数据结构
因此,一个良好的健硕的程序,必然根据其业务场景采用了合适的数据存储方案,并且指定了一系列相关的数据操纵方案。
什么是算法
算法的定义
算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。
也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。
如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。
不同的算法可能用不同的时间、空间或效率来完成同样的任务。
算法与语言本身无关,仅是一种解决思路,用于解决一些实际的问题
通过知名算法的学习,可以提高编程思维,优化程序代码。
算法的特征
一个算法应该具有以下五个重要的特征:
- 有穷性(Finiteness)
算法的有穷性是指算法必须能在执行有限个步骤之后终止; - 确切(Definiteness)
算法的每一步骤必须有确切的定义; - 输入项(Input)
一个算法有0个或多个输入,以刻画运算对象的初始情况,所谓0个输入是指算法本身定出了初始条件; - 输出项(Output)
一个算法有一个或多个输出,以反映对输入数据加工后的结果。没有输出的算法是毫无意义的; - 可行性(Effectiveness)
算法中执行的任何计算步骤都是可以被分解为基本的可执行的操作步骤,即每个计算步骤都可以在有限时间内完成(也称之为有效性)。
算法的评定
同一问题可用不同算法解决,而一个算法的质量优劣将影响到算法乃至程序的效率。
算法分析的目的在于选择合适算法和改进算法。
除此之外,评定规则还有以下3个:
- 正确性
算法的正确性是评价一个算法优劣的最重要的标准 - 可读性
算法的可读性是指一个算法可供人们阅读的容易程度 - 鲁棒性
鲁棒性是指一个算法对不合理数据输入的反应能力和处理能力,也称为容错性
时间复杂度
时间复杂度是指算法的大概运行时间,是判定算法优劣的重要评定规则,使用大O进行表示。
对一个算法的时间复杂度而言,对其影响最大因素就是需要解决的问题规模。
问题规模越大,解决时间也就越久,如下图所示:
时间复杂度更多是表示一个模糊的大概时间,而并非一个具体的准确的数字。
如:
- 抽一支烟,这个行为大概会占用几分钟的时间
- 睡一觉,这个行为大概会占用几个小时的时间
当然,这只是大概,并不用进行精确的求值,因为个体差异,客观环境因素等原因都会导致这个时间度不同,没有人敢确切的说自己在任何情况下抽一支烟只花费3分钟,也没有人敢确切的说自己在任何情况下睡一觉只花费8个小时。
时间复杂度可依照基础语句对其进行判断,基础语句操作的时间复杂度记为1
除此之外还有循环次数n,和循环嵌套层数n²或者n³、至于四层循环就很少了,不再举例。
当有多种判定时,取最大的即可:
1)仅一次基础操作,时间复杂度就直接等于1:
x = 1 # O(1)
# 取O(1)
2)根据问题规模而变化,单次循环,时间复杂度等于循环次数n:
for i in range(n): # O(n)
x = i # O(1)
# 取O(n)
3)一个更加复杂的问题规模,双层循环,时间复杂度等于循环次数n加上循环嵌套层数:
for i in range(n): # O(n²)
for j in range(n):
x = i + j # O(1)
# 取O(n²)
4)目前来说相当复杂的问题规模,三层循环,时间复杂度等于循环次数n加上循环嵌套层数:
for i in range(n): # O(n³)
for j in range(n):
for k in range(n):
x = i + j + k # O(1)
# 取 O(n³)
当然,不要陷入逻辑误区,像下面这条语句的时间复杂度也是O(1),因为1次基础操作和3次基础操作的速度没有本质区别,它没有一个可以改变问题规模的n,所以归类为O(1)而不是O(3)。
一定记住一句话,时间复杂度是一个模糊的估算值,并不是确切值:
x = 1
x = 2
x = 3
继续判断,将下面代码看为4部分,依照取最大的原则:
a = 5 # O(1)
b = 6
c = 10
for i in range(n): # O(n²)
for j in range(n):
x = i * i
y = j * j
z = i * j
for k in range(n): # O(n)
w = a * k + 45
v = b * b
d = 33 # O(1)
# 取O(n²)
同时,如果双层循环中,内层循环有多个,时间复杂度也记为O(n²),因为循环只嵌套了2层,如下所示:
for i in range(n):
for j in range(n):
pass
for k in range(n):
pass
# 层数是2,所以取O(n²)
还有一个常见的时间复杂度,O(logn)。
如下所示,每一次运行,问题规模减少一半,其实全部表示法是O(log2n),简写为了O(logn),这种时间复杂度在递归中很容易看到。
n = 64 # O(1)
while n > 1: # O(log2n)
print(n) # O(1)
n = n // 2
以下方法可快速判断算法的时间复杂度:
- 确定问题规模O(n)
- 有没有循环减半的过程O(logn)
- 有几层循环O(nn)
空间复杂度
空间复杂度是用来评估算法内存占用大小的式子。
空间复杂度和时间复杂度是一种相对应的关系,一句很流行的话叫做空间换时间,也是现在的主流,如分布式等架构就是典型的空间换时间。
表示方式与时间复杂度完全一样,都采用大O表示法:
- 算法使用了几个变量:O(1)
- 算法使用了长度为n的一维列表:O(n)
- 算法使用了n行n列的二维列表:O(nn)
一般来说,时间复杂度的判定比空间复杂度的判定更为重要。
什么是数据结构
数据结构的定义
数据结构是计算机存储、组织数据的方式。
数据结构是指相互之间存在一种或多种特定关系的数据元素的集合。
通常情况下,精心选择的数据结构可以带来更高的运行或者存储效率。
数据结构往往同高效的检索算法和索引技术有关。
常见数据结构
线性结构:数据结构中的元素存在一对一的相互关系
树形结构:数据结构中的元素存在一对多的相互关系
图形结构:数据结构中的元素存在多对多的相互关系