字典树详解+例题——异或最大值、统计难题、Xor Sum

字典树

又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高。

它有3个基本性质：

根节点不包含字符，除根节点外每一个节点都只包含一个字符；

从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串；

每个节点的所有子节点包含的字符都不相同。

思路：

字典树是用一个二维数组tree[i][j]存储，第一维存储节点的编号，第二维存储的是要存入字典树的类型，

如：若在建树过程中，对于要存入的字母来说，就把 'a'对应1 , 'b'对应2 , 'c'对应3 ··· 'z对应26'等要存的字母存入第二维中，实现操作就是字符ch-'a'就是对应的数字了

若是数字的异或操作，第二维存储的就是0，1了

字典树第一步就是建树，要想把输入的单词存入字典树，从左到右扫这个单词，如果字母在相应根节点下没有出现过，就插入这个字母；否则沿着字典树往下走，看单词的下一个字母。

void insert_(char s[])
{
    int t;
    root=0;
    for(int i=0;s[i];i++)
    {
        t=s[i]-'a';
        //如果当前字母没有出现过，就插入这个单词，cnt是这个字典树的编号
        if(tree[root][t]==0)    tree[root][t]=++cnt;            
        
        root=tree[root][t];    //沿着这条分枝走
    }
}

第二步就是查找了，若想查询某个单词出现的次数，就要在建树时开个sum数组，存储每个编号出现的次数，然后对要查询的单词的每个字母进行遍历，知道找到最后的字母，返回sum[root]

void insert_(char s[])
{
    int t;
    root=0;
    for(int i=0;s[i];i++)
    {
        t=s[i]-'a';

        //如果当前字母没有出现过，就插入这个单词，cnt是这个字典树的编号
        if(tree[root][t]==0)    tree[root][t]=++cnt;    
        
        sum[tree[root][t]]++;

        root=tree[root][t];    //沿着这条分枝走
    }
}

int find_(char s[])
{
    int t;
    int root=0;
    for(int i=0;s[i];i++)
    {
        t=s[i]-'a';
        if(tree[root][t]==0)  return 0;
          root=tree[root][t];
    }
    return sum[root];
}

例题1：统计难题

Ignatius最近遇到一个难题,老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计出以某个字符串为前缀的单词数量(单词本身也是自己的前缀).

Input

输入数据的第一部分是一张单词表,每行一个单词,单词的长度不超过10,它们代表的是老师交给Ignatius统计的单词,一个空行代表单词表的结束.第二部分是一连串的提问,每行一个提问,每个提问都是一个字符串.

注意:本题只有一组测试数据,处理到文件结束.

Output

对于每个提问,给出以该字符串为前缀的单词的数量.

Sample Input

banana
band
bee
absolute
acm

ba
b
band
abc

Sample Output

代码

#include<stdio.h>
#include<string.h>
#include<algorithm>
typedef long long ll;
const ll xmax=1e6+100;
using namespace std;
int tree[xmax][26],cnt,root,sum[xmax];
void insert_(char s[])
{
    int t;
    root=0;
    for(int i=0;s[i];i++)
    {
        t=s[i]-'a';
        if(tree[root][t]==0)    tree[root][t]=++cnt;
        sum[tree[root][t]]++;
        root=tree[root][t];
    }
}
int find_(char s[])
{
    int t;
    int root=0;
    for(int i=0;s[i];i++)
    {
        t=s[i]-'a';
        if(tree[root][t]==0)  return 0;
          root=tree[root][t];
    }
    return sum[root];
}
int main()
{
    char s[xmax],ask[xmax];
    while(1)
    {
        gets(s);
        if(s[0]=='\0')
            break;
        else
            insert_(s);
    }
    while(scanf("%s",ask)!=EOF)
    {
        int ans=find_(ask);
        printf("%d\n",ans);
    }
    return 0;
}

例题二：异或最大值

给定一些数，求这些数中两个数的异或值最大的那个值

Input

多组数据。第一行为数字个数n，1 <= n <= 10 ^ 5。接下来n行每行一个32位有符号非负整数。

Output

任意两数最大异或值

Sample Input

Sample Output

异或运算符解释——百度百科

如果a、b两个值不相同，则异或结果为1。如果a、b两个值相同，异或结果为0。

异或也叫半加运算，其运算法则相当于不带进位的二进制加法：二进制下用1表示真，0表示假，则异或的运算法则为：0⊕0=0，1⊕0=1，0⊕1=1，1⊕1=0（同为0，异为1），这些法则与加法是相同的，只是不带进位，所以异或常被认作不进位加法。

>>位运算解释——来自百度百科

在许多计算机编程语言（例如：C语言、C++语言、Java语言、JavaScript语言、Pascal语言等）中，“>>”代表右移运算符，就相当于“shr”。该运算符为双目运算符，结合方向为从左到右，作用是把一个整型数的所有位向右移动指定的位数，移动到右边界之外的多余二进制位会被丢弃，并从左边界移入一个二进制位，若原数的最高位为1，则移入的二进制位为1，否则为0。

右移运算的两个操作数应为整数类型。第一个操作数是要进行移位操作的数，第二个操作数指定第一个操作数移动的位数。如果第二个操作数等于0则不发生任何移位。

应用举例：

问：计算表达式14 >> 2的值。

答：表达式14 >> 2的值为3，因为14（即二进制的00001110）向右移两位等于3（即二进制的00000011）。

说白了，就是把要移动的数转换成2进制，右移几位就去掉右边的几位数，左移几位就在右边加几个0，比如14右移2位就是转成二进制变成1110，去掉右边的10，变成11，11转成十进制就是3；左移2位就是111000，转成十进制就是56。

& 运算符解释

&是二进制“与”运算，参加运算的两个数的二进制按位进行运算，运算的规律是：
0 & 0=0
0 & 1=0
1 & 0=0
1 & 1=1

#include<stdio.h>
#include<string.h>
#include<algorithm>
typedef long long ll;
const int xmax=1e5+100;
const int INF=1e9+7;
using namespace std;

int tree[xmax*32][2],cnt;

void init()
{
    memset(tree,0,sizeof(tree)); //对这个树初始化
    cnt=0;
}
void insert_(int x)
{
    int t,s=0;
    //从最高为开始建树
    for(int i=31;i>=0;i--)
    {
        t=(x>>i)&1;    //右移i位后与1进行&运算后，是1结果就是1，是0结果就是0
        if(tree[s][t]==0)    tree[s][t]=++cnt;
        s=tree[s][t];
    }
}
int find_(int x)
{
    int t,sum=0,s=0;
    for(int i=31;i>=0;i--)
    {
        t=!((x>>i)&1);    //对于求异或最大值，就是求于要求的数x二进制的每一位都相反的
                            //如果有就接着找，没有就只能找相反的了
        sum<<=1;
        if(tree[s][t])  s=tree[s][t],sum++;
        else s=tree[s][!t];
    }
    return sum;
}
int main()
{
    int n,a[xmax];
    while(~scanf("%d",&n))
    {
        init();
        int ans=-1;
        for(int i=1;i<=n;i++)
    {
        scanf("%d",&a[i]);
        insert_(a[i]);
    }
    for(int i=1;i<=n;i++)
    {
        ans=max(ans,find_(a[i]));
    }
    printf("%d\n",ans);
    }
    return 0;
}

例题三：Xor Sum

Zeus 和 Prometheus 做了一个游戏，Prometheus 给 Zeus 一个集合，集合中包含了N个正整数，随后 Prometheus 将向 Zeus 发起M次询问，每次询问中包含一个正整数 S ，之后 Zeus 需要在集合当中找出一个正整数 K ，使得 K 与 S 的异或结果最大。Prometheus 为了让 Zeus 看到人类的伟大，随即同意 Zeus 可以向人类求助。你能证明人类的智慧么？

Input

输入包含若干组测试数据，每组测试数据包含若干行。
输入的第一行是一个整数T（T < 10），表示共有T组数据。
每组数据的第一行输入两个正整数N，M（<1=N,M<=100000），接下来一行，包含N个正整数，代表 Zeus 的获得的集合，之后M行，每行一个正整数S，代表 Prometheus 询问的正整数。所有正整数均不超过2^32。

Output

对于每组数据，首先需要输出单独一行”Case #?:”，其中问号处应填入当前的数据组数，组数从1开始计算。
对于每个询问，输出一个正整数K，使得K与S异或值最大。

Sample Input

Sample Output

Case #1:
4
3
Case #2:
4

思路：

这题与上题的区别是求与已知集合中和询问的数异或值最大的，也就是说需要在求异或值过程中把最大的那个数给记录下来

#include<stdio.h>
#include<string.h>
#include<algorithm>
#include<math.h>
typedef long long ll;
const ll xmax=1e6+7;
using namespace std;

int tree[xmax<<1][2],cnt,root;
int a[xmax],b[xmax];

void init()
{
    memset(tree,0,sizeof(tree));
    cnt=0;root=0;
}
void insert_(int x)
{
    int t;
    root=0;
    for(int i=31;i>=0;i--)
    {
        t=(x>>i)&1;
        if(tree[root][t]==0)    tree[root][t]=++cnt;
        root=tree[root][t];
    }
}
int find_(int y)
{
    int t,ans=0;
    int root=0;
    for(int i=31;i>=0;i--)
    {
        t=!((y>>i)&1);
        //不同之处
        //1<<i表示求2的i次方，是把二进制转化为十进制的操作
        if(tree[root][t])  ans+=(t*(1<<i)),root=tree[root][t];
        else    ans+=(!t*(1<<i)),root=tree[root][!t];
    }
    return ans;
}
int main()
{
   int t;
   scanf("%d",&t);
   for(int i=1;i<=t;i++)
   {
       init();
       int n,m;
       scanf("%d%d",&n,&m);
       for(int j=0;j<n;j++)
       {
           scanf("%d",&a[j]);
           insert_(a[j]);
       }
       for(int j=0;j<m;j++)
           scanf("%d",&b[j]);
       printf("Case #%d:\n",i);
       for(int j=0;j<m;j++)
       {
           int ans=find_(b[j]);
          printf("%d\n",ans);
       }
   }
    return 0;
}