一个找爸爸的数据结构：并查集详解，附上python模板及例题（完整版、压缩版找爸爸写法都有）

一、概念

并查集是一种树型的数据结构，用于处理一些不相交集合的合并及查询问题（即所谓的并、查）。比如说，我们可以用并查集来判断一个森林中有几棵树、某个节点是否属于某棵树等。

主要构成：
并查集主要由一个整型数组pre[ ]和两个函数find( )、join( )构成。
数组 pre[ ] 记录了每个点的前驱节点是谁（一般理解为该点的爸爸是谁），函数 find(x) 用于查找指定节点 x 属于哪个集合（可以理解为找祖先），函数 join(x,y) 用于合并两个节点 x 和 y（一般是将x认作是y的爸爸）。

作用：
并查集的主要作用是求连通分支数（如果一个图中所有点都存在可达关系（直接或间接相连），则此图的连通分支数为1；如果此图有两大子图各自全部可达，则此图的连通分支数为2……）。

举例：
例如一个大陆有天、地、玄、黄四个门派，每个门派有不同级别的弟子若干，pre[ ] 数组就是记录每个弟子的上司名字，而find() 方法就是找到该弟子上司的上司的上司…即所属门派的掌门人，join(A, B) 方法就是将A弟子设置为B弟子的上司。

二、python实现完整版代码

完整版的并查集数据结构有初始化、find、merge等方法，主要是方便理解，一般解题是不用完整版，因为代码量冗余增加时间空间复杂度。

class UnionFind:
    def __init__(self):
        self.father = {
    
    }    ##记录每个节点的父节点
 
    def find(self, x):
        root = x
        while self.father[root] != root:    #寻找根节点
            root = self.father[root]
        while root != x:                    #路径压缩
            preFather = self.father[x]
            self.father[x] = root
            x = preFather
        return root
 
    def merge(self, x, y):              #合并节点
        root_x, root_y = self.find(x), self.find(y)
        if root_x != root_y:
            self.father[root_x] = root_y
 
    def is_connected(self, x, y):       #判断联通性
        return self.find(x) == self.find(y)
 
    def add(self, x):                   #增加节点
        if x not in self.father:
            self.father[x] = x

三、并查集压缩版python代码（解题最常用的写法）

解题时，为保证代码简洁，同时降低时间空间复杂度，一般只定义一个爸爸数组和一个 find() 方法。

注：该find方法具有持续更新爸爸的作用，一般以递归形式实现。

dus ={
    
    。。。。。。}  # 先定义爸爸数组的形式及初始元素值

# 定义查找祖值方法（含更新祖值作用）
def find(i):
    if dus[i] != i:
        dus[i] = find(dus[i])
    return dus[i]

四、并查集典型例题

（一）力扣题库：947、移除最多的同行或同列石头

套用压缩版并查集模板

n 块石头放置在二维平面中的一些整数坐标点上。每个坐标点上最多只能有一块石头。

如果一块石头的同行或者同列上有其他石头存在，那么就可以移除这块石头。

给你一个长度为 n 的数组 stones ，其中 stones[i] = [xi, yi] 表示第 i 块石头的位置，返回可以移除的石子的最大数量。

示例 1：

输入：stones = [[0,0],[0,1],[1,0],[1,2],[2,1],[2,2]]
输出：5
解释：一种移除 5块石头的方法如下所示:

移除石头 [2,2] ，因为它和 [2,1] 同行。

移除石头 [2,1] ，因为它和 [0,1] 同列。

移除石头 [1,2] ，因为它和 [1,0] 同行。

移除石头 [1,0] ，因为它和 [0,0] 同列。

移除石头 [0,1] ，因为它和 [0,0] 同行。

石头 [0,0] 不能移除，因为它没有与另一块石头同行/列。

示例 2：

输入：stones = [[0,0],[0,2],[1,1],[2,0],[2,2]]
输出：3
解释：一种移除 3 块石头的方法如下所示：

移除石头 [2,2] ，因为它和 [2,0] 同行。

移除石头 [2,0] ，因为它和 [0,0] 同列。

移除石头 [0,2] ，因为它和 [0,0] 同行。

石头 [0,0] 和 [1,1] 不能移除，因为它们没有与另一块石头同行/列。

示例 3：

输入：stones = [[0,0]]
输出：0
解释：[0,0] 是平面上唯一一块石头，所以不可以移除它。

提示：

1 <= stones.length <= 1000
0 <= xi, yi <= 104
不会有两块石头放在同一个坐标点上

解题思路:

看完题目，第一感觉就是找出多少组连通的石头。
而每组连通的石头需要保留至少一个石头，所以答案就是石头个数-连通石头的组数。

看完官方题解之后，明白了一个技巧，把所有坐标的纵坐标加上10000（坐标的最大值），我们可以把坐标看成edges。
举一个例子，[[0,0],[1,1],[1,2]] => [[0,10000],[1,10001],[1,10002]。
这里0, 10000, 1, 10001, 10002表示5个nodes。
[0,10000]表示node 0和node 10000有edge连通。
[1,10001]表示node 1和node 10001有edge连通。
[1,10002]表示node 1和node 10002有edge连通。
这就转成熟悉的图并查集问题了，遍历所有edges，即可找出所有连通组。

时间复杂度O(nlogm)，n为edges数量，m为node数量。
空间复杂度O(m),这里使用了字典作实现并查集的，当然列表也是OK的。

此外，注意在最后要对所有node调用find，更新所属的连通组。

题解代码：

class Solution:
    def removeStones(self, stones: List[List[int]]) -> int:
    	# 以字典形式定义初始化的parent集
        dus ={
    
    s+i*10000:s+i*10000 for stone in stones for i, s in enumerate(stone)}
        print(dus)
		# 定义查找祖值方法（含更新祖值作用）
        def find(i):
            if dus[i] != i:
                dus[i] = find(dus[i])
            return dus[i]

		# 遍历全部石头，按顺序更新祖值
        for i, (s1, s2) in enumerate(stones):
            if s1 in dus and find(s1) != find(s2+10000):
                # union
                dus[find(s1)] = find(s2+10000)
                print(i, dus)
        # 防止按顺序更新的祖集中有重复未更新，再次更新
        for k in dus:
            print(k)
            find(k)
        # 最后用总数减去不重复的祖值数即可
        return len(stones) - len(set(dus.values()))

（二）力扣题库：1202、交换字符串中的元素

套用完整版并查集模板

给你一个字符串 s，以及该字符串中的一些「索引对」数组 pairs，其中 pairs[i] = [a, b] 表示字符串中的两个索引（编号从 0 开始）。

你可以任意多次交换在 pairs 中任意一对索引处的字符。

返回在经过若干次交换后，s 可以变成的按字典序最小的字符串。

示例 1:

输入：s = “dcab”, pairs = [[0,3],[1,2]]
输出：“bacd”
解释：
交换 s[0] 和 s[3], s = “bcad”
交换 s[1] 和 s[2], s = “bacd”

示例 2：

输入：s = “dcab”, pairs = [[0,3],[1,2],[0,2]]
输出：“abcd”
解释：
交换 s[0] 和 s[3], s = “bcad”
交换 s[0] 和 s[2], s = “acbd”
交换 s[1] 和 s[2], s = “abcd”

示例 3：

输入：s = “cba”, pairs = [[0,1],[1,2]]
输出：“abc”
解释：
交换 s[0] 和 s[1], s = “bca”
交换 s[1] 和 s[2], s = “bac”
交换 s[0] 和 s[1], s = “abc”

提示：

1 <= s.length <= 10^5
0 <= pairs.length <= 10^5
0 <= pairs[i][0], pairs[i][1] < s.length
s 中只含有小写英文字母

题解思路：

主要就是考察并查集的思路，并查集使用完后，单独将每个集合包含的节点找出来，重新排序，重新赋值即可。

题解python代码（详细注释）：

# 定义一个并查集类，包含初始化祖先、查找祖先、合并祖先三种方法
class DSU:
    def __init__(self, nodecount):
        self.parent=[-1]*nodecount#初始化，每个节点的祖先都是自己，记住-1，这里node_count为节点总数
    def findboss(self, node):# 首先，是找到自己所在集合的最上面那一层的祖先，若值不为-1，说明当前自己的祖先并不是最终祖先，循环进行再去找他的祖先，直到找到最终祖先
        temp=node
        while self.parent[node]!=-1:
            node=self.parent[node]
        if temp!=node:#路径压缩，使得所有节点的祖先都是最终的祖先
            self.parent[temp]=node
        return node 
    def mergeboss(self, node1, node2):#查询相互连通的两个人的祖先是不是同一个人
        node1boss=self.findboss(node1)
        node2boss=self.findboss(node2)
        if node1boss!=node2boss:#如果不是，那就合并两个集合，从两人中选举一个新祖先
            self.parent[node1boss]=node2boss

class Solution:
    def smallestStringWithSwaps(self, s: str, pairs: List[List[int]]) -> str:
        n=len(s)
        if n<2:
            return s
        dsu=DSU(n)#n个节点数，初始化并查集
        for node1,node2 in pairs:#先用并查集遍历一遍，使得每个节点都找到自己的祖先
            dsu.mergeboss(node1,node2)
        h={
    
    }
        for i in range(n):#再将所有公共祖先的子节点划分到一起，公共祖先自己也在该集合里
            if dsu.findboss(i) not in h:
                h[dsu.findboss(i)]=[i]
            else:
                h[dsu.findboss(i)].append(i)
        res=list(s)
        #print(dsu.parent)
        #print(h)
        for nodes in h.values():
            indices=sorted(nodes)#这里的每个节点都是相互连通的，即可以随意互相置换，直接按题意排序即可
            string=sorted(res[node] for node in nodes)#按最小字典序排列即从小到大
            # print(indices)
            # print(string)
            for index,letter in zip(indices,string):#按排好位置后，放回字母
                res[index]=letter
        return "".join(res)