python删除重复文件

使用场景

网上爬取的图片重复量太大，需要删除重复图片。

环境

python 3
hashilib

分析一下这个问题：

首先，文件个数非常多，手工查找是不现实的，再说，单凭我们肉眼，在几千张图片或文件里面找到完全相同的难度也是很大的。所以要用程序实现。那么用程序怎么实现呢？根据什么判断两个文件完全相同呢？

首先，根据文件名判断是靠不住的，因为文件名可以被随意更改，但文件内容不变。再说在同一个文件夹下面，也不可能出现两个完全相同的文件名，操作系统不允许的。
还有一种方法就是根据文件大小来判断，这不失为一种好办法，但是，文件大小相同的图片可能不一样。再说图片一般都比较小，超过3M的基本没有，大部分不够1M，如果文件夹下面文件特别多，出现大小相同的的文件可能性是相当大的。所以单凭文件大小来比较不靠谱。
还有一种方法是读取每张图片的内容，然后比较这个图片的内容和其他图片是否完全相同，如果内容相同那么这两张图片肯定是完全相同的。这种方法看起来是比较完美的，让我们来分析一下他的时空效率：首先每张图片的内容都要和其他图片进行比较，这就是一个二重循环，读取的效率低，比较的效率更低，所有的都比较下来是非常费时的！内存方面，如果预先把所有图片读取到内存可以加快文件的比较效率，但是普通计算机的内存资源有限，如果图片非常多，好几个G的话，都读到内存是不现实的。如果不把所有的文件读取到内存，那么每比较一次之前就要先读取文件内容，比较几次就要读取几次，从硬盘读取数据是比较慢的，这样做显然不合适。
那么有没有更好的方法呢？我冥思苦想，绞尽脑汁，最后想到了md5。也许你会问，md5不是加密的吗？和我们的问题有关系吗？问得好！md5可以把任意长度的字符串进行加密后形成一个32的字符序列，包括数字和字母（大写或小写），因为字符串任何微小的变动都会导致md5序列改变，因此md5可以看作一个字符串的‘指纹’或者‘信息摘要’，因为md5字符串总共有36的32次方个，所以两个不同的字符串得到一个相同的md5概率是很小的，几乎为0，同样的道理，我们可以得到每个文件的md5，若干文件的md5相同的话就基本上可以肯定两个文件是相同的，因为md5相同而文件不同的概率太小了，基本可以忽略，这样我们就可以这样做：得到每个文件的md5，通过比较md5是否相同我们就可以确定两张图片是否相同。

下面是代码实现：

# -*- coding: cp936 -*-
import hashlib
import os
import time


def getmd5(filename):
    """
    获取文件 md5 码
    :param filename: 文件路径
    :return: 文件 md5 码
    """
    file_txt = open(filename, 'rb').read()
    # 调用一个md5对象
    m = hashlib.md5(file_txt)
    # hexdigest()方法来获取摘要（加密结果）
    return m.hexdigest()


def main():
    # 文件夹路径
    path = input("path: ")
    # 存放文件的 md5 码
    all_md5 = []
    total_file = 0
    total_delete = 0
    # 开始时间
    start = time.time()
    # 遍历文件夹下的所有文件
    for file in os.listdir(path):
        # 文件数量加 1
        total_file += 1
        # 文件的路径
        real_path = os.path.join(path, file)
        # 判断文件是否是文件
        if os.path.isfile(real_path) == True:
            # 获取文件的md5码
            filemd5 = getmd5(real_path)
            # 如果文件 md5 已存在，则删除此文件
            if filemd5 in all_md5:
                total_delete += 1
                print('删除', file)
            else:
                # 如果文件 md5 不存在，则将此文件的 md5 码添加到 all_md5 列表中
                all_md5.append(filemd5)
    # 结束时间
    end = time.time()
    time_last = end - start
    print('文件总数：', total_file)
    print('删除个数：', total_delete)
    print('耗时：', time_last, '秒')


if __name__ == '__main__':
    main()

上面的程序原理很简单，就是依次读取每个文件，计算md5，如果md5在md5列表不存在，就把这个md5加到md5列表里面去，如果存在的话，我们就认为这个md5对应的文件已经出现过，这个图片就是多余的，然后我们就可以把这个图片删除了。下面是程序的运行截图：

我们可以看到，在这个文件夹下面有5235个文件，有144个是重复的，找到所有重复文件共耗时1.88秒。效率不算高，能不能进行优化呢？我分析了一下，我的程序里面有两个功能比较耗时间，一个是计算每个文件的md5，这个占了大部分时间，还有就是在列表中查找md5是否存在，也比较费时间的。从这两方面入手，我们可以进一步优化。

首先我想的是解决查找问题，或许我们可以对列表中的元素先排一下序，然后再去查找，但是列表是变化的，每次都排序的话效率就比较低了。我想的是利用字典进行优化。字典最显著的特点是一个key对应一个值我们可以把md5作为key，key对应的值就不需要了，在变化的情况下字典的查找效率比序列效率高，因为序列是无序的，而字典是有序的，查找起来当然更快。这样我们只要判断md5值是否在所有的key中就可以了。下面是改进后的代码：

# -*- coding: cp936 -*-
import hashlib
import os
import time


def getmd5(filename):
    """
    获取文件 md5 码
    :param filename: 文件路径
    :return: 文件 md5 码
    """
    file_txt = open(filename, 'rb').read()
    # 调用一个md5对象
    m = hashlib.md5(file_txt)
    # hexdigest()方法来获取摘要（加密结果）
    return m.hexdigest()


def main():
    # 文件夹路径
    path = input("path: ")
    # 存放文件的 md5 码
    all_md5 = {}  # 改为字典
    total_file = 0
    total_delete = 0
    # 开始时间
    start = time.time()
    # 遍历文件夹下的所有文件
    for file in os.listdir(path):
        # 文件数量加 1
        total_file += 1
        # 文件的路径
        real_path = os.path.join(path, file)
        # 判断文件是否是文件
        if os.path.isfile(real_path) == True:
            # 获取文件的md5码
            filemd5 = getmd5(real_path)
            # 如果文件 md5 已存在，则删除此文件
            if filemd5 in all_md5.keys():  # 字典的键为文件 md5 码
                total_delete += 1
                print('删除', file)
            else:
                # 如果文件 md5 不存在，则将此文件的 md5 码添加到 all_md5 字典中
                all_md5[filemd5] = ""
    # 结束时间
    end = time.time()
    time_last = end - start
    print('文件总数：', total_file)
    print('删除个数：', total_delete)
    print('耗时：', time_last, '秒')


if __name__ == '__main__':
    main()

再看看运行截图：

从时间上看，确实比原来快了一点，但是还不理想。下面还要进行优化。还有什么可以优化呢？md5！上面的程序，每个文件都要计算md5，非常费时间，是不是每个文件都需要计算md5呢？能不能想办法减少md5的计算次数呢？我想到了一种方法：上面分析时我们提到，可以通过比较文件大小的方式来判断图片是否完全相同，速度快，但是这种方法是不准确的，md5是准确的，我们能不能把两者结合一下？答案是肯定的。我们可以认定：如果两个文件完全相同，那么这两个文件的大小和md5一定相同，如果两个文件的大小不同，那么这两个文件肯定不同！这样的话，我们只需要先查看文件的大小是否存在在size字典中，如果不存在，就将它加入到size字典中，如果大小存在的话，这说明有至少两张图片大小相同，那么我们只要计算文件大小相同的文件的md5，如果md5相同，那么这两个文件肯定完全一样，我们可以删除，如果md5不同，我们把它加到列表里面，避免重复计算md5。具体代码实现如下（最终版本）：

# -*- coding: cp936 -*-
import hashlib
import os
import time


def getmd5(filename):
    """
    获取文件 md5 码
    :param filename: 文件路径
    :return: 文件 md5 码
    """
    file_txt = open(filename, 'rb').read()
    # 调用一个md5对象
    m = hashlib.md5(file_txt)
    # hexdigest()方法来获取摘要（加密结果）
    return m.hexdigest()


def main():
    # 文件夹路径
    path = input("path: ")
    # 键为文件大小, 值为列表（文件路径、md5）
    all_size = {}
    total_file = 0
    total_delete = 0
    # 开始时间
    start = time.time()
    # 遍历文件夹下的所有文件
    for file in os.listdir(path):
        # 文件数量加 1
        total_file += 1
        # 文件的路径
        real_path = os.path.join(path, file)
        # 判断文件是否是文件
        if os.path.isfile(real_path) == True:
            # 获取文件大小
            size = os.stat(real_path).st_size
            # md5(默认为空)
            size_and_md5 = [""]
            # 如果文件大小已存在
            if size in all_size.keys():
                # 获取文件的md5码
                new_md5 = getmd5(real_path)
                # 大小相同，md5 为空，添加md5
                if all_size[size][0] == "":
                    all_size[size][0] = new_md5
                # md5 已存在，删除
                if new_md5 in all_size[size]:
                    print('删除', real_path)
                    # os.remove(real_path)
                    total_delete += 1
                else:
                    # md5 不存在，进行添加
                    all_size[size].append(new_md5)
            else:
                # 如果文件大小不存在，则将此文件大小添加到 all_size 字典中
                all_size[size] = size_and_md5
    # 结束时间
    end = time.time()
    time_last = end - start
    print('文件总数：', total_file)
    print('删除个数：', total_delete)
    print('耗时：', time_last, '秒')


if __name__ == '__main__':
    main()

时间效率怎样呢？看下图：

只用了0.5秒！比前两个效率提高了好几倍！

梦因you而美

发布了328 篇原创文章 · 获赞 170 · 访问量 28万+

他的留言板关注

python删除重复文件

猜你喜欢