BZOJ 企鹅QQ(经典字符串哈希)

题目

PenguinQQ是中国最大、最具影响力的SNS(Social Networking Services)网站,以实名制为基础,为用户提供日志、群、即时通讯、相册、集市等丰富强大的互联网功能体验,满足用户对社交、资讯、娱乐、交易等多方面的需求。
小Q是PenguinQQ网站的管理员,他最近在进行一项有趣的研究——哪些账户是同一个人注册的。经过长时间的分析,小Q发现同一个人注册的账户名称总是很相似的,例如Penguin1,Penguin2,Penguin3……于是小Q决定先对这种相似的情形进行统计。
小Q定义,若两个账户名称是相似的,当且仅当这两个字符串等长且恰好只有一位不同。例如“Penguin1”和“Penguin2”是相似的,但“Penguin1”和“2Penguin”不是相似的。而小Q想知道,在给定的 个账户名称中,有多少对是相似的。
为了简化你的工作,小Q给你的 个字符串长度均等于 ,且只包含大小写字母、数字、下划线以及‘@’共64种字符,而且不存在两个相同的账户名称。

Input
第一行包含三个正整数n, l,s 。其中n 表示账户名称数量, l表示账户名称长度,s 用来表示字符集规模大小,它的值只可能为2或64。
若 等于2,账户名称中只包含字符‘0’和‘1’共2种字符;
若 等于64,账户名称中可能包含大小写字母、数字、下划线以及‘@’共64种字符。
随后 行,每行一个长度为 的字符串,用来描述一个账户名称。数据保证 个字符串是两两不同的。

Output
仅一行一个正整数,表示共有多少对相似的账户名称。

Sample Input

4 3 64
Fax
fax
max
mac

Sample Output

4

HINT

4对相似的字符串分别为:Fax与fax,Fax与max,fax与max,max与mac。N<=30000,L<=200,S<=64

思路

第一次思路(不正确)

第一次思路当时感觉很好,虽然结果,但还是贴出来留个纪念,毕竟是个思考的过程。当时想的是把256个ascii吗用哈希的思想来统计每一位出现的次数,比如当处理Fax,由于是第一次,所以只把对应字符的计数加1,当处理fax时,我们通过查找,发现原来的a,x,F出现1次,而f出现0次,故存在n - 1为计数相等的情况,所以一样的对数为ax出现的次数加1。但是这个思路有个致命的做法,两个字符串相同的部分在之和的统计中,可能出现次数不一致的情况。当考察到mac时,原来的m出现1次,而a出现了4次,所以导致误判,错认为ma不是公共部分。

第二次思路

通过观察发现,L的长度较小,可以出L和字符串哈希值出发。我们枚举去掉L中某一位后的各字符串的哈希值,然后排序,这样相似的字符必然聚集在一起,一次遍历即可统计出次数。
那么如何计算字符串的哈希值呢?
这里采用的映射的函数思想来自与进制转换。因为对于任何2个某进制位下的进制表示,转换为十进制后必然不同,所以这里采用将字符串看做某进制下的进制表示(这里定为大于256的某个质数即可)。
num的p进制转换为十进制的公式为:

r e s = n u m [ n ] p 0 + n u m [ n 1 ] p 1 + . . . + n u m [ 1 ] p n 1

所以当我们确定采用p进制后,首先预处理出p的各个幂次结果,方便之后快速计算十进制表达式。
那么如何计算去掉某一位后的子串的哈希值呢?
这里假设去掉的位置为pos,原串的哈希值为sum那么公式为:
r e s = s u m s t r [ p o s ] p n p o s + s t r [ p o s 1 ] p n p o s + 1

意思就是我减去包含这个位置字符的前缀的哈希值加上去掉这个字符的前缀哈希值,得到的就是删除某个位置的后的子串的哈希值。

代码

package com.special.BZOJ;

import java.util.Arrays;
import java.util.Scanner;

/**
 * Created by Special on 2018/5/29 23:09
 */
public class BZOJ3555 {
    static final int LENGTH = 205;
    static long[] factor = new long[LENGTH];
    static final int KEY = 271;
    static String[] strs;
    static long[][] sum;
    static int  n, l, s, count;

    static void init(){
        factor[0] = 1;
        for(int i = 1; i < LENGTH; i++){
            factor[i] = factor[i - 1] * KEY;
        }
    }

    static void cal(int pos){
        long[] temp = new long[n + 1];
        for(int i = 1; i <= n; i++){
            temp[i] = sum[i][l] - sum[i][pos] * factor[l - pos] + sum[i][pos - 1] * factor[l - pos + 1];
        }
        Arrays.sort(temp, 1, temp.length);
        int now = 1;
        for(int i = 1; i <= n; i++){
            if(temp[i] == temp[i - 1]){
                count += now;
                now++;
            }else {
                now = 1;
            }
        }
    }

    public static void main(String[] args) {
        Scanner input = new Scanner(System.in);
        init();
        while(input.hasNext()){
            n = input.nextInt();
            l = input.nextInt();
            s = input.nextInt();
            strs = new String[n + 1];
            sum = new long[n + 1][LENGTH];
            count = 0;

            for(int i = 1; i <= n; i++){
                strs[i] = input.next();
            }
            for(int i = 1; i <= n; i++){
                for(int j = 1; j <= l; j++){
                    sum[i][j] = sum[i][j - 1] * KEY + strs[i].charAt(j - 1);
                }
            }
            for(int i = 1; i <= l; i++){
                cal(i);
            }
            System.out.println(count);
        }
    }
}

猜你喜欢

转载自blog.csdn.net/dawn_after_dark/article/details/80506820