树与树的算法
树的概念
树(tree)是一种抽象数据类型(ADT)或是视作这种抽象数据类型的数据结构,用来模拟具有树状结构性质的数据集合。它是由n(n>=1)个有限的节点组成的一个具有层次关系的集合。它具有以下特点:
- 每个节点有零个或多个节点;
- 没有父节点的节点称为根节点;
- 每一个非根节点有且仅有一个父节点;
- 除了根节点外,每个子节点可以分为多个不相交的子树。
树的术语
- 节点的度:一个节点含有的子树的个数称为该节点的度;
- 树的度:一棵树中,最大的节点的度称为树的度;
- 叶节点或终端节点:度为0的节点;
- 父亲节点或父节点:多一个节点含有子节点,则这个节点称为其子节点的父节点;
- 孩子节点或子节点:一个节点含有的子树的根节点称为该节点的子节点;
- 兄弟节点:具有相同父节点的节点互称为兄弟节点;
- 节点的层次:从根开始定义起,根为第一层,根的子节点为第二层,以此类推;
- 树的高度或深度:树中节点的最大层次;
- 堂兄弟节点:父节点在同一层的节点互为堂兄弟;
- 节点的祖先:从根到该节点所经分支上的所有节点;
- 子孙:以某节点为根的子树中,任一节点都称为该节点的子孙;
- 森林:由m(m>=0)棵互不相交的树的集合称为森林。
树的种类
- 无序树:树中任意节点的子节点之间没有顺序关系,这种树称为无序树,也称为自由树;
- 有序树:树中任意节点的子节点之间有顺序关系,这种树称为有序树;
- 二叉树:每个节点最多含有两个子树的树称为二叉树;
- 完全二叉树:对于一颗二叉树,假设其深度为d(d>1).除了第d层外,其他各层的节点数目均已达到最大值,且第d层所有节点从左向右连续地紧密排列,这样的二叉树被称为完全二叉树,其中满二叉树的定义是所有叶节点都在最底层的完全二叉树;
- 平衡二叉树(AVL树):当且仅当任何节点的两颗子树的高度差不大于1的二叉树;
- 排序二叉树(二叉查找树-binary search tree):也称为二叉搜索树,有序二叉树;
- 哈夫曼树(用于信息编码):带权路径最短的二叉树称为哈夫曼树,或者最优二叉树;
- B树:一种对读写操作进行优化的自平衡的二叉查找树,能够保证数据有序,拥有多余两个子树。
树的顺序是用户自己定义的;排序二叉树是指,树中的节点在遍历是时是有序的(对于树中任意节点,它左边的值都比他小,右边的值都比他大)。这样的树就有了特定的顺序。
树的存储与表示
顺序存储:将数据结构存储在固定的数组中,然在遍历速度上有一定的优势,但因所占空间比较大,是非主流二叉树。二叉树通常以链式存储。
链式存储:树在实现上,还是链式存储
由于对节点的个数无法掌握,常见的存储表示都转换成二叉树进行处理,子节点个数最多为2。
常见的一些树的应用场景
- xml,html等,编写这些东西的解析器时,不可避免的用到树;
- 路由协议使用了树的算法;
- mysql数据库索引;
- 文件系统的目录结构;
- 很多经典的人工智能算法都是树搜索,此外机器学习中的decision tree也是树结构。
二叉树
二叉树是每个节点最多有两个子树的树结构,通常子树被称为“左子树(left tree)”和“右子树(right tree)”.
二叉树的性质
- 在二叉树的第i层上至多有2(i-1)个节点(i>0)
- 深度为k的二叉树至多有2k-1个节点(k>0)
- 对于任意一颗二叉树,如果其叶节点树为N0,而度数为2的节点总数为N2,则N0=N2+1
- 具有n个节点的完全二叉树的深度必为log2(n+1)
- 对完全二叉树,从上至下、从左至右,则编号为i的节点,其左孩子编号必为2i,其右孩子编号必为2i+1;其双亲的编号必为i/2(i=1时为根,除外)
二叉树的节点表示以及树的创建
通过使用Node类中定义三个属性,分别为elem本身的值,还有lchild左孩子和rchild右孩子。
class Node(object):
"""节点"""
def __init__(self,item):
self.elem=item
self.lchild=None
self.rchild=None
class Tree(object):
"""二叉树"""
def __init__(self,item):
self.root=None
def add(self,item):
node=Node(item)
#若一开始根节点就为空,根节点为none也会进入循环,会出错
#那么需要对根进行判断,如果为为空,直接令root等于节点元素node
if self.root is None:
self.root=node
return
queue=[self.root]
while queue:
cur_node=queue.pop(0)#在队列中的初始位置
if cur_node.lchild is None:
cur_node.lchild=node#如果节点的左孩子位置为空,直接添加
return
else:#左孩子不为空,那么将node存入待处理的队列中
queue.append(cur_node.lchild)
if cur_node.rchild is None:
cur_node.rchild=node
return
else:
queue.append(cur_node.rchild)
二叉树的遍历
树的遍历是树的一种重要的运算。所谓遍历是指对树中所有结点的信息的访问,即依次对树中每个结点访问一次且仅访问一次,我们把这种对所有节点的访问称为遍历(traversal)。那么树的两种重要的遍历模式是深度优先遍历和广度优先遍历,深度优先一般用递归,广度优先一般用队列。一般情况下能用递归实现的算法大部分也能用堆栈来实现。
广度优先遍历(层次遍历)
从树的根开始,从上到下,从左到右遍历整个树的节点。
def breadth_travel(self):
"""广度优先遍历"""
if self.root is None:
return
queue=[self.root]#从根开始遍历,放入队列
while queue:
cur_node=queue.pop(0)
print(cur_node.elem,end=" ")
if cur_node.lchild is not None:
queue.append(cur_node.lchild)
if cur_node.rchild is not None:
queue.append(cur_node.rchild)
深度优先遍历
对于一颗二叉树,深度优先搜索(Depth First Search)是沿着树的深度遍历树的节点,尽可能深的搜索树的分支。那么深度遍历有重要的三种方式。这三种方式常被用于访问树的节点,它们之间的不同在于访问每个节点的次序不同。这三种遍历分别叫做先序遍历(preorder)、中序遍历(inorder)、后序遍历(postorder)。
- 先序遍历
在先序遍历中,我们先访问根节点,然后递归使用先序遍历访问左子树,再递归使用先序遍历访问右子树。
根节点–>左子树–>右子树
def preorder(self,node):
"""先序遍历"""
if node is None:
return
print(node.elem,end=" ")
self.preorder(node.lchild)
self.preorder(node.rchild)
- 中序遍历
在中序遍历中,递归调用中序遍历访问左子树,然后访问根节点,最后再递归使用中序遍历访问右子树。
左子树–>根节点–>右子树
def inorder(self,node):
"""中序遍历"""
if node is None:
return
self.inorder(node.lchild)
print(node.elem,end=" ")
self.inorder(node.rchild)
- 后序遍历
在后序遍历中,我们先递归使用后序遍历访问左子树和右子树,最后访问根节点。
左子树->右子树->根节点
def postorder(self,node):
"""后序遍历"""
if node is None:
return
self.postorder(node.lchild)
self.postorder(node.rchild)
print(node.elem,end=" ")
调用函数,以123456789为例子:
tree.breadth_travel()#广度优先遍历
print(" ")
tree.preorder(tree.root)#先序遍历,需要先传入根节点
print(" ")
tree.inorder(tree.root)#中序遍历
print(" ")
tree.postorder(tree.root)#后序遍历
运行结果:
1 2 3 4 5 6 7 8 9
1 2 4 8 9 5 3 6 7
8 4 9 2 5 1 6 3 7
8 9 4 5 2 6 7 3 1
由遍历确定一棵二叉树
三种序列中只要给了包含中序遍历的两种遍历序列,就可以反推出二叉树。中序遍历用于划分树的两棵子树