如果对于文件有一定了解,比如网络传输,上传、下载文件的话,那么对于md5值一定不会陌生,这是一个文件的标示或者记录,每个文件有自身的md5值,如果对文件做了修改,那么其md5值是一定会改变,所以我们可以看到在下载系统文件的时候都会提示核对md5值,以确认下载的系统文件是否缺失或者修改!
什么是md5码?
MD5(Message Digest Algorithm 5)是一种用于信息摘要算法的加密哈希函数。它将输入的任意长度的消息压缩成一串128位的哈希值,并且不同的输入一般会产生不同的哈希值。
md5码的应用领域
在计算机领域中,一般使用MD5算法来验证文件的完整性。
还有一种应用广泛的领域,那就是去重,早几年网络上传分享内容,比如优酷视频上传,只需要更改视频文件的md5码值,即能通过平台的重复内容初筛,这是比较简单的去重机制。
当然随着现在的短视频的飞速发展,视频去重早已经不会那么粗糙,在视频内容审核上,早已经相当智能,尤其是版权上,盗版视频,重复视频早已经能飞速审核,并结合平台内的数据过审。
Python 读取文件md5码去重操作应用
在计算机领域,md5是常见的加密算法之一,而Python自带了hashlib库,这个库包含用于安全哈希和消息摘要的许多方法。
- Python 读取文件md5码操作
import hashlib
def get_md5(filename):
if (filename):
print(filename)
fp = open(filename, 'rb')
contents = fp.read()
fp.close()
print(hashlib.md5(contents).hexdigest())
else:
print('file not exists')
if __name__=="__main__":
filename=r'C:\Users\Administrator\Desktop/1.jpg'
get_md5(filename)
filename = r'C:\Users\Administrator\Desktop/1 - 副本.jpg'
get_md5(filename)
- Python 修改文件md5码操作
import os, glob
def fileAppend(filename):
myfile = open(filename,'a')
myfile.write("####&&&&***")
myfile.close
if __name__ == '__main__':
dirname = r'D:\\videos\look' #需要修改的视频的文件目录
allFile = glob.glob(dirname + os.sep + '*.mp4')
for filename in allFile:
fileAppend(filename)
print(filename + 'is Changed.')
- Python 批量修改文件md5码操作
#
# 该.py文件与待修改文件置于同一文件夹下,操作运行即可实现功能。注意观察操作台反馈。
import os
import random
import sys
import hashlib
# 获取当前"文件"的绝对路径
path1 = __file__
# 获取当前"文件夹"的绝对路径
path = path1.replace('!!!_md5_change.py', '')
# 获取当前文件的文件名
# print(os.path.basename(__file__))
def md5_change(file_name):
file = open(file_name, 'a')
file.write('###&&&')
file.close()
_FILE_SLIM = 100*1024*1024
def md5_search(filepath):
calltimes = 0
hmd5 = hashlib.md5()
fp = open(filepath, "rb")
f_size = os.stat(filepath).st_size
if f_size > _FILE_SLIM:
while (f_size > _FILE_SLIM):
hmd5.update(fp.read(_FILE_SLIM))
f_size /= _FILE_SLIM
calltimes += 1
if (f_size > 0) and (f_size <= _FILE_SLIM):
hmd5.update(fp.read())
else:
hmd5.update(fp.read())
return hmd5.hexdigest()
# 获取文件夹下所有的文件名称,以列表的形式呈现
file_name_list = os.listdir(path)
# 在列表元素个数范围内取随机数
random_x = random.randint(0, len(file_name_list))
# 获取到文件夹内某个随机文件的绝对路径(为结尾验证做准备)
file_name_path = path + file_name_list[random_x]
# 获取该随机选取到的文件的md5值(md5值修改之前)
md5 = md5_search(file_name_path)
print('"' + file_name_list[random_x] + '"原md5: ' + md5)
# 开始遍历含有文件名的列表
for x in range(0, len(file_name_list)):
filename = file_name_list[x]
# 剔除目标文件之外的元素
if filename == '!!!_md5_change.py':
pass
elif filename == '.DS_Store':
pass
else:
# 对文件进行md5修改
md5_change(filename)
# 获取该随机选取到的文件的md5值(md5值修改之后)
new_md5 = md5_search(file_name_path)
print('"' + file_name_list[random_x] + '"修改后的md5: ' + new_md5)
# 对随机挑选到的文件进行修改前后比对验证
if md5 != new_md5:
print('md5值的修改验证通过!')
else:
print('"' + file_name_list[random_x] + '"' + '验证未通过,该文件夹下所有文件的md5值可能均修改失败')
- Python 读取文件md5码去重操作
#两层判断:
#1.先判断文件大小是否为相同,大小不同则不是重复文件,予以保留;
#2.文件大小相同再判断文件md5,md5相同,则是重复文件,予以删除。
#两层判断:
#1.先判断文件大小是否为相同,大小不同则不是重复文件,予以保留;
#2.文件大小相同再判断文件md5,md5相同,则是重复文件,予以删除。
from pathlib import Path
import hashlib
def getmd5(filename):
# 接收文件路径,返回文件md5值
with open(filename, 'rb') as f:
data = f.read()
file_md5 = hashlib.new("md5", data).hexdigest()
return file_md5
def main():
path = r"F:\FileRecv\删除文件测试"
all_size = {}
total_file = 0
total_delete = 0
# 获取路径内的所有文件名,默认是升序排列,相同文件将会保留日期时间最新的
all_files = Path(path).glob('*.*')
# 降序排列,相同文件将会保留文件名最短的(即日期时间最久的)
all_files = sorted(all_files, reverse=True)
# 遍历文件路径内的所有文件
for file in all_files:
# 获取文件所占字节大小,作为数据字典的键
size = file.stat().st_size
# name_and_md5列表用于存储文件绝对路径和md5值,作为数据字典的值
name_and_md5 = [file, '']
# 针对重复文件进行处理,生成字典存储相关信息
# 字典all_size中key是size,value是name_and_md5列表
# 针对相同size的文件,再调用getmd5函数,获取文件的md5值
# 文件size不同(不在all_size.keys()中),则自动判断为不同的文件,予以保留
if size in all_size.keys():
# 调用getmd5函数,获取文件的md5值
new_md5 = getmd5(file)
if all_size[size][1] == '':
all_size[size][1] = getmd5(all_size[size][0])
# 判断md5值存在,即文件重复,则删除文件。md5值不存在,则把md5值加入列表中
if new_md5 in all_size[size]:
file.unlink()
total_delete += 1
else:
all_size[size].append(new_md5)
else:
all_size[size] = name_and_md5
total_file += 1
print(f'文件总数:{total_file}')
print(f'删除个数:{total_delete}')
if __name__=="__main__":
main()
运行效果:
附所有代码demo打包获取
链接:
https://pan.baidu.com/s/1h9-l5vsc6dwLnpVGGiBllg?pwd=cyxr
提取码:
cyxr
详解如何使用Python实现删除重复文件 https://www.jb51.net/article/264574.htm
利用python实现批量修改文件的md5值
python批量修改视频md5值 https://zhuanlan.zhihu.com/p/298042816
python实现MD5进行文件去重的示例代码 https://www.jb51.net/article/217069.htm
·················END·················
你好,我是二大爷,
革命老区外出进城务工人员,
互联网非早期非专业站长,
喜好python,写作,阅读,英语
不入流程序,自媒体,seo . . .
公众号不挣钱,交个网友。
关注我的都变秃了
说错了,都变强了!
不信你试试
扫码关注最新动态
公众号ID:eryeji