彩虹表的攻击与防御

转载

mob604757037cf3 2021-10-22 20:09:00

文章标签 哈希算法字符串当前目录 md5加密后缀 文章分类 代码人生

一、实验简介

实验所属系列：密码学

实验对象：本科/专科信息安全专业

相关课程及专业： Python编程

实验时数（学分）：2学时

实验类别：实践实验类

二、预备知识

Hash：一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入（又叫做预映射pre-image）通过散列算法变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来确定唯一的输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。后文所说的MD5算法是常用哈希算法之一，类似的还有MD5算法，SHA-1算法。

RainbowCrack：生成彩虹表的工具，是Philippe Oechslin 更快的时间记忆权衡技术的一般简易实现。能够实现：

1.全时间内存权衡工具套件，包括彩虹表生成，排序，转换和查找

2.支持任何哈希算法的彩虹表

3.支持任何字符集的彩虹表

4.支持原始文件格式（.rt）和压缩文件格式（.rtc）的彩虹表

5.计算多核处理器支持

6.使用NVIDIA GPU进行GPU加速（CUDA技术）

7.采用AMD GPU的GPU加速（OpenCL技术）

8.具有多个GPU的GPU加速

9.以及相应的系统兼容

MD5消息摘要算法（MD5 Message-Digest Algorithm）：一种被广泛使用的密码散列函数，可以产生出一个128位（16字节）的散列值（hash value），用于确保信息传输完整一致。MD5由美国密码学家罗纳德·李维斯特（RonaldLinn Rivest）设计，于1992年公开，用以取代MD4算法。

三、实验目的

1）理解哈希算法的概念。

2）理解彩虹表攻击的原理以及进行相应实战。

3）掌握针对彩虹表攻击的防御要点。

四、实验环境

彩虹表的攻击与防御_字符串

服务器：Windows 7 64位，IP地址：随机分配

辅助工具：Python2 IDE，RainbowCrack（1.7版本）

请在实验机内下载源码及软件：http://tools.hetianlab.com/tools/rainbow.zip

五、实验步骤

　　在信息化时代，手机已经成为了我们生活中不可缺少的一部分，而我们的手机锁屏密码大部分都是4位数字的组合，在存在着防御暴力破解机制的前提下（例如多次尝试失败进行锁定），我们可以用怎样的加密机制来防止不怀好意的人破解我们的手机密码呢？同样，身为Cracker的你，怎样在别人无法察觉的情况下破解手机密码呢？

　　我们的任务分为3个部分：

　　1．以防御者的视角，编写对于4位密码进行md5加密的脚本，来抵御攻击者对密码的嗅探。

　　2．以攻击者的视角，通过生成相应的彩虹表来对4位数字密码MD5密文进行破解。

　　3．以防御者的视角，通过某种措施来抵御彩虹表破解或者使攻击者的破解难度和成本大大增加。

1）任务描述：使用任意一种语言，对特定的四位数字进行MD5加密(例如‘3839’)，输出加密后的结果：

　　注：具体MD5加密原理可以参照实验《Hash算法MD5分析》（http://www.hetianlab.com/expc.do?ec=81da3ca2-ae9d-4e85-b2a2-b6f217a150a0），在这里就不复现MD5的加密流程了

//示例程序运行截图：

　　彩虹表的攻击与防御_字符串_02

2）任务描述：使用给定的彩虹表生成工具RainbowCrack，生成破解四位数字组合MD5值的彩虹表，并对实验一中的MD5字符串进行破解。

　1、彩虹表原理（对原理不感兴趣的同学可以直接跳到后面的操作阶段）：

　　①时间和空间的折中（本节摘自CSND）

　　彩虹表预先建立一个可逆向的散列链并将其存储在表中，在破解时先查表得到可能包含结果的散列链，然后在内存中重新计算并得到最终结果。折中方式综合了计算暴力破解和查找表破解的优点，并将计算时间和存储空间降低到可以接受的范围。

以下图散列链为例，其中散列函数H将字符串转换成散列值，衰减函数R将散列值转换成字符串：

因此只需要存储第一个字符串aaaaaa和最后一个字符串kiebgt，我们就可以通过有限的计算还原整个散列链中所有的明文密码和散列值。这样可以减少所需要的存储空间。当我们获得一个用户密码的散列值，通过R运算可以得到一个字符串，然后通过查表的方式可以得到对应的散列链，从而还原用户明文密码。

例如，我们有密码散列值920ECF10，通过R函数可以得到字符串kiebgt，查表后我们得到散列链aaaaaa-kiebgt，然后在内存中还原整个散列链，因为我们只做了一次R运算，因此只需要找到kiebgt上一次使用R－H函数前的字符串就能得到用户的明文密码。

　　②预先计算的散列链（本节摘自维基百科）

假设我们有一个哈希方程H和一个有限的密码集合P。我们需要预先计算出一个数据结构来帮我们决定哈希方程H的任意一个输出结果h是否可以通过密码集合P里面的一个元素p经哈希函数H(p) = h得到。实现这一目的的最简单的方法是计算出P集合内所有密码p的哈希值H(p)。但是这个方法要求Θ(|P|n)，（n代表哈希函数H的一个输出值的大小，对于较大的|P|，n会变得过高)字节的空间来储存结果。

哈希链可以用来减少对于储存空间的需求。大致想法是通过定义一个衰减函数（reduction function）R来影射散列值h在集合P中对应的密码p。（注意，这里的衰减函数并不是真正意义上哈希函数的反函数。)然后通过用衰减函数来替代哈希函数，形成交替的密码和哈希值。例如，如果P是6个字符的密码集合，而哈希值有32位长，那么他们形成的长链如下：

彩虹表的攻击与防御_当前目录_04

一个衰减函数的例子：

已知一个32位的哈希值 -〉获得哈希值的最后4个字符。

对于衰减函数的唯一要求是，它需要能返回特定字符的纯文本值。

为了生成查找表，我们从初始密码集合P中随机选择一个子集，对子集中的每个元素计算长度为k的哈希链，然后只保存每条哈希链的初始和末尾密码。我们把初始密码称为起点，把末尾密码称为终点。在上述哈希链的例子中，”aaaaaa”和”kiebgt”即为起点和终点，而哈希链中的其他密码或者哈希值均不会被保存。

现在，对于给定的哈希值h我们来计算它的逆（即找到对应的密码），从哈希值h开始，我们通过依次施加函数R和H生成一个哈希链。如果哈希链的任何节点与查找表的某个终点发生了碰撞，我们就可以找到与之对应的起点，然后用它重建对应的哈希链。而这个哈希链很可能包含了h，如果这样的话，那么它的前驱节点即为我们要寻找的密码p。

例如，如果给定的哈希值为920ECF10，我们首先施加函数R：

因为”kiebgt”就是我们查找表的一个终点，所以我们找到对应的起始密码”aaaaaa”，然后搜索由它生成的哈希链直到找到920ECF10：

因此，目标密码即为”sgfnyd”。

注意，这里的哈希链并不总是会包含我们要寻找的哈希值h；很可能以h开始的链会和起点在h链之后的某个查找链重合。例如，我们可以从FB107E70的哈希链中找到kiebgt：

　　但FB107E70并不在以”aaaaaa”开头的链中。这种情况被称为误报。在这个例子中，我们可以忽略这个匹配然后继续扩增h链同时寻找下一个匹配。如果h的哈希链在扩增到长度为k后仍然没有发生匹配，那么与之对应的密码一定不在查找表的任何哈希链中。

查找表的内容并不依赖于查询的哈希值。它是在一次性建立之后，被无修改的重复用于查找。增加链的长度可以减小表的规模，但同时也会增加查询时间，这就是彩虹表空间换时间的折中策略。在单元链的最简单情况下，查询速度会非常快，但表也会非常大。一旦链变得更长，查找速度也会降下来，但表的规模变得更小了。

简单的哈希链方法有很多缺陷。最严重的问题是，如果两条链中的任何两个点碰撞（有同样的值）了，他们后续的所有点都将重合，这将导致在付出了同样的计算代价之后并不能使表尽可能多的覆盖到密码。由于链的前部并没有整个的保存，这使得碰撞不可能有效检测到。例如，如果链3的第三个值和链7的第二个值重合了，那么这两条链将覆盖几乎同样的值，但他们的终点值却不相同。哈希函数H本身不大可能产生碰撞，因为这就是它最重要的安全特性之一。但对于衰减函数R来说，由于他需要正确的覆盖掉可能的明文（即之前讨论的密码），所以不会是抗碰撞的。

其他的困难是由选择正确R函数的重要性导致的。选择恒等映射作为函数R要比暴力搜索好一点。只有当攻击者明确知道明文的可能取值是什么时，他/她才需要选择一个好的R函数使得时间和空间花费在这些可能的明文上，而不是整个可能的密文空间。尽管把R的取值限定到可能的明文空间能带来好处，但它的弊端是攻击者选择的用于生成哈希链的明文子集可能并不能覆盖所有的可能明文空间。设计一个能匹配明文期望分布的R函数也非常困难。

　　③RainbowCrack目录文件说明：

文件作用

rtgen.exe 生成彩虹表的执行文件

rtsort.exe 给彩虹表排序文件

rcrack.exe 执行解密的文件

rt2rtc.exe 将后缀是rt的文件转化为rtc文件

rtc2rt.exe 将后缀是rt的文件转化为rt文件

charset.txt 这个文件是我们的字符集对照表文件(解密的类型)

group.txt -这是组文件.将几个彩虹表组合起来

彩虹表的攻击与防御_哈希算法_08