一、摘要算法
(一)介绍
摘要算法:顾名思义,就是从已有数据中抽取出一部分数据片段经过一系列复杂的计算然后糅合在一起形成的密文。
摘要算法对输入数据尤其敏感,输入数据发生任何变化都会导致密文的不一致。
由于生成的密文只是通过一部分数据片段计算出来的,因此摘要算法是一个不可逆的过程(也就是说不可能从已生成的密文推导出其对应的数据)。
(二)应用场景
- 数字签名
- 存储用户密码
如果直接将用户的明文密码存放到数据库中,会产生极大的安全隐患:
- 数据库管理员可以看到用户的明文密码,有泄漏风险。
- 数据库被攻击后,黑客可以获取到所有用户的明文密码
因此在数据库中一般存放的都是用户密码的摘要信息,当用户登录时,可以通过相同的摘要算法计算出摘要信息,然后再与数据库中的摘要信息进行比对。(同时这也是为什么我们忘记密码后不能直接找回密码而是要重置密码的原因)
ps:这个时候黑客大兄弟发话了:“这点问题能难倒我?虽然我不能直接获取到你们的明文密码,但是我还有其他办法可以破解你们的用户密码的 ”
原来这位黑客自己也有一个数据库,他的数据库中保存着我们所有密码的排列组合与摘要的一个对应关系。这样一来他就可以通过用户密码的摘要与自己数据库中的摘要进行匹配。匹配成功后,这串摘要对应的密码就代表着用户的密码。这也就是常说的彩虹表攻击。
有攻击自然就有防御
刚才的黑客之所以还能够破解用户的密码,无非就是因为他知道了我们具体的摘要算法,然后通过相同的算法,列举出我们所有密码的组合结果并保存在了自己数据库中进行匹配 。
既然如此,那么我们可以在生成用户密码摘要时放点额外的东西进去,这样一来就可以生成完全不一样的摘要信息。
同时为了避免黑客知道我们放了什么东西进去,然后采用相同的手法攻击我们,我们还可以针对每一个用户放不同的东西进去(例如用户id、身份证号、手机号等)。这样一来我们的安全性就有了很高的保证。(这个东西被称之为“盐(salt)”)
(三)小结
- 摘要算法计算的过程不需要密钥(但是可以加盐,也就是把密钥作为数据的一部分进行计算)
- 摘要算法是一个输入敏感、输出长度固定的不可逆算法
- 用相同的摘要算法对同一个数据进行两次计算,输出结果必然相同
二、MD5算法
(一)简介
MD5即Message-Digest Algorithm 5(信息-摘要算法5),用于确保信息传输完整一致。是计算机广泛使用的杂凑算法之一(又译摘要算法、哈希算法),主流编程语言普遍已有MD5实现。
MD5算法具有以下特点:
不可逆,相同数据的MD5值肯定一样,不同数据的MD5值不一样
(一个MD5理论上的确是可能对应无数多个原文的,因为MD5是有限多个的而原文可以是无数多个。比如主流使用的MD5将任意长度的“字节串映射为一个128bit的大整数。也就是一共有2^128种可能,大概是3.4*10^38,这个数字是有限多个的,而但是世界上可以被用来加密的原文则会有无数的可能性)
- 压缩性:任意长度的数据,算出的MD5值长度都是固定的。
- 容易计算:从原数据计算出MD5值很容易。
- 抗修改性:对原数据进行任何改动,哪怕只修改1个字节,所得到的MD5值都有很大区别。
- 强抗碰撞:已知原数据和其MD5值,想找到一个具有相同MD5值的数据(即伪造数据)是非常困难的。
(二)用途
1.防止被篡改
比如发送一个电子文档,发送前,我先得到MD5的输出结果a。然后在对方收到电子文档后,对方也得到一个MD5的输出结果b。如果a与b一样就代表中途未被篡改。
比如我提供文件下载,为了防止不法分子在安装程序中添加木马,我可以在网站上公布由安装文件得到的MD5输出结果。
SVN在检测文件是否在CheckOut后被修改过,也是用到了MD5.
2.防止直接看到明文
现在很多网站在数据库存储用户的密码的时候都是存储用户密码的MD5值。这样就算不法分子得到数据库的用户密码的MD5值,也无法知道用户的密码。(比如在UNIX系统中用户的密码就是以MD5(或其它类似的算法)经加密后存储在文件系统中。当用户登录的时候,系统把用户输入的密码计算成MD5值,然后再去和保存在文件系统中的MD5值进行比较,进而确定输入的密码是否正确。通过这样的步骤,系统在并不知道用户密码的明码的情况下就可以确定用户登录系统的合法性。这不但可以避免用户的密码被具有系统管理员权限的用户知道,而且还在一定程度上增加了密码被破解的难度。)
3.防止抵赖(数字签名)
这需要一个第三方认证机构。例如A写了一个文件,认证机构对此文件用MD5算法产生摘要信息并做好记录。若以后A说这文件不是他写的,权威机构只需对此文件重新产生摘要信息,然后跟记录在册的摘要信息进行比对,相同的话,就证明是A写的了。这就是所谓的“数字签名”。
(三)MD5加密步骤