字典树
又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。
它有3个基本性质:
根节点不包含字符,除根节点外每一个节点都只包含一个字符;
从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串;
每个节点的所有子节点包含的字符都不相同。
思路:
字典树是用一个二维数组tree[i][j]存储,第一维存储节点的编号,第二维存储的是要存入字典树的类型,
如:若在建树过程中,对于要存入的字母来说,就把 'a'对应1 , 'b'对应2 , 'c'对应3 ··· 'z对应26'等要存的字母存入第二维中,实现操作就是字符ch-'a'就是对应的数字了
若是数字的异或操作,第二维存储的就是0,1了
字典树第一步就是建树,要想把输入的单词存入字典树,从左到右扫这个单词,如果字母在相应根节点下没有出现过,就插入这个字母;否则沿着字典树往下走,看单词的下一个字母。
void insert_(char s[])
{
int t;
root=0;
for(int i=0;s[i];i++)
{
t=s[i]-'a';
//如果当前字母没有出现过,就插入这个单词,cnt是这个字典树的编号
if(tree[root][t]==0) tree[root][t]=++cnt;
root=tree[root][t]; //沿着这条分枝走
}
}
第二步就是查找了,若想查询某个单词出现的次数,就要在建树时开个sum数组,存储每个编号出现的次数,然后对要查询的单词的每个字母进行遍历,知道找到最后的字母,返回sum[root]
void insert_(char s[])
{
int t;
root=0;
for(int i=0;s[i];i++)
{
t=s[i]-'a';
//如果当前字母没有出现过,就插入这个单词,cnt是这个字典树的编号
if(tree[root][t]==0) tree[root][t]=++cnt;
sum[tree[root][t]]++;
root=tree[root][t]; //沿着这条分枝走
}
}
int find_(char s[])
{
int t;
int root=0;
for(int i=0;s[i];i++)
{
t=s[i]-'a';
if(tree[root][t]==0) return 0;
root=tree[root][t];
}
return sum[root];
}
例题1:统计难题
Ignatius最近遇到一个难题,老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计出以某个字符串为前缀的单词数量(单词本身也是自己的前缀).
Input
输入数据的第一部分是一张单词表,每行一个单词,单词的长度不超过10,它们代表的是老师交给Ignatius统计的单词,一个空行代表单词表的结束.第二部分是一连串的提问,每行一个提问,每个提问都是一个字符串.
注意:本题只有一组测试数据,处理到文件结束.
Output
对于每个提问,给出以该字符串为前缀的单词的数量.
Sample Input
banana
band
bee
absolute
acm
ba
b
band
abc
Sample Output
2
3
1
0
代码
#include<stdio.h>
#include<string.h>
#include<algorithm>
typedef long long ll;
const ll xmax=1e6+100;
using namespace std;
int tree[xmax][26],cnt,root,sum[xmax];
void insert_(char s[])
{
int t;
root=0;
for(int i=0;s[i];i++)
{
t=s[i]-'a';
if(tree[root][t]==0) tree[root][t]=++cnt;
sum[tree[root][t]]++;
root=tree[root][t];
}
}
int find_(char s[])
{
int t;
int root=0;
for(int i=0;s[i];i++)
{
t=s[i]-'a';
if(tree[root][t]==0) return 0;
root=tree[root][t];
}
return sum[root];
}
int main()
{
char s[xmax],ask[xmax];
while(1)
{
gets(s);
if(s[0]=='\0')
break;
else
insert_(s);
}
while(scanf("%s",ask)!=EOF)
{
int ans=find_(ask);
printf("%d\n",ans);
}
return 0;
}
例题二:异或最大值
给定一些数,求这些数中两个数的异或值最大的那个值
Input
多组数据。第一行为数字个数n,1 <= n <= 10 ^ 5。接下来n行每行一个32位有符号非负整数。
Output
任意两数最大异或值
Sample Input
3
3
7
9
Sample Output
14
异或运算符解释——百度百科
如果a、b两个值不相同,则异或结果为1。如果a、b两个值相同,异或结果为0。
异或也叫半加运算,其运算法则相当于不带进位的二进制加法:二进制下用1表示真,0表示假,则异或的运算法则为:0⊕0=0,1⊕0=1,0⊕1=1,1⊕1=0(同为0,异为1),这些法则与加法是相同的,只是不带进位,所以异或常被认作不进位加法。
>>位运算解释——来自百度百科
在许多计算机编程语言(例如:C语言、C++语言、Java语言、JavaScript语言、Pascal语言等)中,“>>”代表右移运算符,就相当于“shr”。该运算符为双目运算符,结合方向为从左到右,作用是把一个整型数的所有位向右移动指定的位数,移动到右边界之外的多余二进制位会被丢弃,并从左边界移入一个二进制位,若原数的最高位为1,则移入的二进制位为1,否则为0。
右移运算的两个操作数应为整数类型。第一个操作数是要进行移位操作的数,第二个操作数指定第一个操作数移动的位数。如果第二个操作数等于0则不发生任何移位。
应用举例:
问:计算表达式14 >> 2的值。
答:表达式14 >> 2的值为3,因为14(即二进制的00001110)向右移两位等于3(即二进制的00000011)。
说白了,就是把要移动的数转换成2进制,右移几位就去掉右边的几位数,左移几位就在右边加几个0,比如14右移2位 就是转成二进制变成1110,去掉右边的10,变成11,11转成十进制就是3;左移2位就是111000,转成十进制就是56。
& 运算符解释
&是二进制“与”运算,参加运算的两个数的二进制按位进行运算,运算的规律是:
0 & 0=0
0 & 1=0
1 & 0=0
1 & 1=1
#include<stdio.h>
#include<string.h>
#include<algorithm>
typedef long long ll;
const int xmax=1e5+100;
const int INF=1e9+7;
using namespace std;
int tree[xmax*32][2],cnt;
void init()
{
memset(tree,0,sizeof(tree)); //对这个树初始化
cnt=0;
}
void insert_(int x)
{
int t,s=0;
//从最高为开始建树
for(int i=31;i>=0;i--)
{
t=(x>>i)&1; //右移i位后与1进行&运算后,是1结果就是1,是0结果就是0
if(tree[s][t]==0) tree[s][t]=++cnt;
s=tree[s][t];
}
}
int find_(int x)
{
int t,sum=0,s=0;
for(int i=31;i>=0;i--)
{
t=!((x>>i)&1); //对于求异或最大值,就是求于要求的数x二进制的每一位都相反的
//如果有就接着找,没有就只能找相反的了
sum<<=1;
if(tree[s][t]) s=tree[s][t],sum++;
else s=tree[s][!t];
}
return sum;
}
int main()
{
int n,a[xmax];
while(~scanf("%d",&n))
{
init();
int ans=-1;
for(int i=1;i<=n;i++)
{
scanf("%d",&a[i]);
insert_(a[i]);
}
for(int i=1;i<=n;i++)
{
ans=max(ans,find_(a[i]));
}
printf("%d\n",ans);
}
return 0;
}
例题三:Xor Sum
Zeus 和 Prometheus 做了一个游戏,Prometheus 给 Zeus 一个集合,集合中包含了N个正整数,随后 Prometheus 将向 Zeus 发起M次询问,每次询问中包含一个正整数 S ,之后 Zeus 需要在集合当中找出一个正整数 K ,使得 K 与 S 的异或结果最大。Prometheus 为了让 Zeus 看到人类的伟大,随即同意 Zeus 可以向人类求助。你能证明人类的智慧么?
Input
输入包含若干组测试数据,每组测试数据包含若干行。
输入的第一行是一个整数T(T < 10),表示共有T组数据。
每组数据的第一行输入两个正整数N,M(<1=N,M<=100000),接下来一行,包含N个正整数,代表 Zeus 的获得的集合,之后M行,每行一个正整数S,代表 Prometheus 询问的正整数。所有正整数均不超过2^32。
Output
对于每组数据,首先需要输出单独一行”Case #?:”,其中问号处应填入当前的数据组数,组数从1开始计算。
对于每个询问,输出一个正整数K,使得K与S异或值最大。
Sample Input
2
3 2
3 4 5
1
5
4 1
4 6 5 6
3
Sample Output
Case #1:
4
3
Case #2:
4
思路:
这题与上题的区别是求与已知集合中和询问的数异或值最大的,也就是说需要在求异或值过程中把最大的那个数给记录下来
#include<stdio.h>
#include<string.h>
#include<algorithm>
#include<math.h>
typedef long long ll;
const ll xmax=1e6+7;
using namespace std;
int tree[xmax<<1][2],cnt,root;
int a[xmax],b[xmax];
void init()
{
memset(tree,0,sizeof(tree));
cnt=0;root=0;
}
void insert_(int x)
{
int t;
root=0;
for(int i=31;i>=0;i--)
{
t=(x>>i)&1;
if(tree[root][t]==0) tree[root][t]=++cnt;
root=tree[root][t];
}
}
int find_(int y)
{
int t,ans=0;
int root=0;
for(int i=31;i>=0;i--)
{
t=!((y>>i)&1);
//不同之处
//1<<i表示求2的i次方,是把二进制转化为十进制的操作
if(tree[root][t]) ans+=(t*(1<<i)),root=tree[root][t];
else ans+=(!t*(1<<i)),root=tree[root][!t];
}
return ans;
}
int main()
{
int t;
scanf("%d",&t);
for(int i=1;i<=t;i++)
{
init();
int n,m;
scanf("%d%d",&n,&m);
for(int j=0;j<n;j++)
{
scanf("%d",&a[j]);
insert_(a[j]);
}
for(int j=0;j<m;j++)
scanf("%d",&b[j]);
printf("Case #%d:\n",i);
for(int j=0;j<m;j++)
{
int ans=find_(b[j]);
printf("%d\n",ans);
}
}
return 0;
}