Python 两层list去重

原创

mob64ca12e27f25 2024-08-21 07:06:09 ©著作权

文章标签 Python 甘特图代码示例 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12e27f25的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python 两层 List 去重

在数据处理中，去重是一个非常常见的需求。特别是在处理两层 list（即 list 的元素也是 list）时，去重的方式与一层 list 有所不同。在本文中，我们将探讨如何在 Python 中对两层 list 进行去重操作，并给出相应的代码示例。

基础知识

在讲解具体实现之前，我们先简单了解一下 Python 中的 list 类型。Python 的 list 是一种可以存储多个值的容器，支持不同类型的元素，并且可以通过索引来访问。两层 list 是指其元素本身也是 list，例如：

data = [
    [1, 2, 3],
    [4, 5, 6],
    [1, 2, 3],
    [7, 8, 9],
]

在这个例子中，data 是一个两层 list，其中 [1, 2, 3] 重复了两次。

去重思想

为了去重，我们需要比较每一个内部 list 的内容。虽然 Python 提供了简单易用的工具，例如集合（set），但由于列表（list）是不可哈希的，因此不能直接使用集合去重。我们将使用简单的循环和条件判断来完成去重操作。

实现步骤

以下是我们需要实现的步骤：

创建一个新的 list 用于存储不重复的元素。
遍历原始 list 中的每一个元素，检查其是否已经存在于新的 list 中。
如果不存在，将其添加到新的 list 中。

代码示例

下面是实现上述步骤的代码示例：

def unique_two_level_list(data):
    unique_list = []
    for item in data:
        if item not in unique_list:
            unique_list.append(item)
    return unique_list

# 测试
data = [
    [1, 2, 3],
    [4, 5, 6],
    [1, 2, 3],
    [7, 8, 9],
]
result = unique_two_level_list(data)
print(result)  # 输出: [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

这个函数 unique_two_level_list 接受一个两层 list 作为参数，返回一个去重后的 list。在测试部分，我们定义了一个包含重复元素的 list，并调用该函数进行去重。

性能分析

上述去重方法的时间复杂度为 O(n^2)，因为我们在对每个元素进行遍历时，都需要在新列表中查找它是否存在。为了提高效率，我们可以通过使用集合来优化去重操作。

优化实现

下面是一个更高效的版本，使用集合来存储已经添加过的元素：

def unique_two_level_list(data):
    unique_set = set()
    unique_list = []
    for item in data:
        item_tuple = tuple(item)  # 转换为元组，元组是可哈希的
        if item_tuple not in unique_set:
            unique_set.add(item_tuple)
            unique_list.append(item)
    return unique_list

# 测试
result = unique_two_level_list(data)
print(result)  # 输出: [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

通过将内部列表转换为元组，我们可以利用集合的高效查找和唯一性特征来减少时间复杂度，优化后的复杂度是 O(n)。

关系图

为了更好地理解数据的结构和去重过程，我们可以使用 ER 图来表示数据之间的关系。这种关系图表明了原始数据与去重数据之间的联系：

erDiagram
    DATA {
        list data
    }
    UNIQUE_DATA {
        list unique_list
    }
    DATA ||--o{ UNIQUE_DATA : "去重"

在这个图中，我们看到 DATA 代表着原始的两层 list，UNIQUE_DATA 则代表去重后的结果，二者通过“去重”这个动作连接。

甘特图

此外，我们还可以使用甘特图来展示去重过程的步骤和时间安排：

gantt
    title 去重过程
    dateFormat  YYYY-MM-DD
    section 去重步骤
    初始化unique_list :done,    des1, 2023-10-01, 1d
    遍历原始列表          :active, des2, 2023-10-02, 2d
    检查元素是否存在      :          des3, after des2, 2d
    添加不重复的元素      :          des4, after des3, 1d

该甘特图描述了我们在使用该函数时的具体步骤，包括初始化 unique_list、遍历原始列表、检查元素是否存在及添加不重复的元素。