版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/niiick/article/details/85166982
时空限制 1000ms / 128MB
题目描述
加里敦大学的生物研究所,发现了决定人喜不喜欢吃藕的基因序列S,有这个序列的碱基序列就会表现出喜欢吃藕的性状,但是研究人员发现对碱基序列S,任意修改其中不超过3个碱基,依然能够表现出吃藕的性状。现在研究人员想知道这个基因在DNA链S0上的位置。所以你需要统计在一个表现出吃藕性状的人的DNA序列S0上,有多少个连续子串可能是该基因,即有多少个S0的连续子串修改小于等于三个字母能够变成S。
输入格式:
第一行有一个数T,表示有几组数据 每组数据第一行一个长度不超过10^5的碱基序列S0
每组数据第二行一个长度不超过10^5的吃藕基因序列S
输出格式:
共T行,第i行表示第i组数据中,在S0中有多少个与S等长的连续子串可能是表现吃藕性状的碱基序列
题目分析
其实正解好像是hash,但是本蒟蒻太蒟,一万年都没调出来,最后只好祭出了后缀数组
两个字符串隔一个特殊字符接起来求height
枚举S0的每一位作为开头和S匹配
假如当前S0上的指针是x,S上的是y
我们就用height找这两个指针开头的字符串的LCP长度len(用st表维护)
然后令
三次以内跳完整个S或跳完三次后两个字符串后面剩下的一段完全相同,则找到一个符合条件的子串
时间复杂度O(nlogn+n)
该方法在BZOJ被疯狂卡常
#include<iostream>
#include<cmath>
#include<algorithm>
#include<queue>
#include<cstring>
#include<cstdio>
using namespace std;
typedef double dd;
int read()
{
int f=1,x=0;
char ss=getchar();
while(ss<'0'||ss>'9'){if(ss=='-')f=-1;ss=getchar();}
while(ss>='0'&&ss<='9'){x=x*10+ss-'0';ss=getchar();}
return f*x;
}
const int maxn=200010;
int T,n,m;
int a[maxn],len1,len2;
int rak[maxn],sa[maxn],tp[maxn],tax[maxn];
int height[maxn],mi[maxn][20];
char ss[maxn];
int cmin(int x,int y){ return x<y?x:y;}
int cmax(int x,int y){ return x>y?x:y;}
void rsort()
{
for(int i=0;i<=m;++i) tax[i]=0;
for(int i=1;i<=n;++i) tax[rak[i]]++;
for(int i=1;i<=m;++i) tax[i]+=tax[i-1];
for(int i=n;i>=1;--i) sa[tax[rak[tp[i]]]--]=tp[i];
}
void SA()
{
m=256;
for(int i=1;i<=n;++i)
rak[i]=a[i],tp[i]=i;
rsort();
for(int k=1;k<=n;k<<=1)
{
int p=0;
for(int i=n-k+1;i<=n;++i) tp[++p]=i;
for(int i=1;i<=n;++i) if(sa[i]>k) tp[++p]=sa[i]-k;
rsort();
swap(rak,tp);
rak[sa[1]]=p=1;
for(int i=2;i<=n;++i)
rak[sa[i]]=(tp[sa[i]]==tp[sa[i-1]]&&tp[sa[i]+k]==tp[sa[i-1]+k])?p:++p;
if(p>=n) break;
m=p;
}
}
void getH()
{
int k=0;
for(int i=1;i<=n;++i)
{
if(k) k--;
int j=sa[rak[i]-1];
while(a[i+k]==a[j+k]) k++;
height[rak[i]]=k;
}
}
void RMQ()
{
for(int i=1;i<=n;++i) mi[i][0]=height[i];
for(int j=1;(1<<j)<=n;++j)
for(int i=1;i+(1<<j)-1<=n;++i)
mi[i][j]=cmin(mi[i][j-1],mi[i+(1<<j-1)][j-1]);
}
int LCP(int x,int y)
{
int ll=cmin(rak[x],rak[y])+1,rr=cmax(rak[x],rak[y]);
int k=0;
while((1<<k+1)<=rr-ll+1) k++;
return cmin(mi[ll][k],mi[rr-(1<<k)+1][k]);
}
int check(int pos)
{
int x=pos,y=len1+2;
for(int i=1;i<=3;++i)
{
int len=LCP(x,y);
x+=len+1; y+=len+1;
if(y>len1+len2+1) return 1;
}
return LCP(x,y)==(len2+len1+1)-y+1;
}
int main()
{
T=read();
while(T--)
{
scanf("%s",&ss); len1=strlen(ss);
for(int i=0;i<len1;++i) a[i+1]=ss[i];
a[len1+1]=123;
scanf("%s",&ss); len2=strlen(ss);
for(int i=0;i<len2;++i) a[len1+2+i]=ss[i];
n=len1+len2+1;
SA(); getH(); RMQ();
int ans=0;
for(int i=1;i<=len1-len2+1;++i)
if(check(i)) ans++;
printf("%d\n",ans);
}
return 0;
}