洛谷P3763 [TJOI2017]DNA【后缀数组】

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/niiick/article/details/85166982

时空限制 1000ms / 128MB

题目描述

加里敦大学的生物研究所,发现了决定人喜不喜欢吃藕的基因序列S,有这个序列的碱基序列就会表现出喜欢吃藕的性状,但是研究人员发现对碱基序列S,任意修改其中不超过3个碱基,依然能够表现出吃藕的性状。现在研究人员想知道这个基因在DNA链S0上的位置。所以你需要统计在一个表现出吃藕性状的人的DNA序列S0上,有多少个连续子串可能是该基因,即有多少个S0的连续子串修改小于等于三个字母能够变成S。

输入格式:

第一行有一个数T,表示有几组数据 每组数据第一行一个长度不超过10^5的碱基序列S0

每组数据第二行一个长度不超过10^5的吃藕基因序列S

输出格式:

共T行,第i行表示第i组数据中,在S0中有多少个与S等长的连续子串可能是表现吃藕性状的碱基序列


题目分析

其实正解好像是hash,但是本蒟蒻太蒟,一万年都没调出来,最后只好祭出了后缀数组

两个字符串隔一个特殊字符接起来求height
枚举S0的每一位作为开头和S匹配

假如当前S0上的指针是x,S上的是y
我们就用height找这两个指针开头的字符串的LCP长度len(用st表维护)
然后令 x + = l e n + 1 , y + = l e n + 1 x+=len+1,y+=len+1
三次以内跳完整个S跳完三次后两个字符串后面剩下的一段完全相同,则找到一个符合条件的子串

时间复杂度O(nlogn+n)
该方法在BZOJ被疯狂卡常


#include<iostream>
#include<cmath>
#include<algorithm>
#include<queue>
#include<cstring>
#include<cstdio>
using namespace std;
typedef double dd;

int read()
{
    int f=1,x=0;
    char ss=getchar();
    while(ss<'0'||ss>'9'){if(ss=='-')f=-1;ss=getchar();}
    while(ss>='0'&&ss<='9'){x=x*10+ss-'0';ss=getchar();}
    return f*x;
}

const int maxn=200010;
int T,n,m;
int a[maxn],len1,len2;
int rak[maxn],sa[maxn],tp[maxn],tax[maxn];
int height[maxn],mi[maxn][20];
char ss[maxn];

int cmin(int x,int y){ return x<y?x:y;}
int cmax(int x,int y){ return x>y?x:y;}

void rsort()
{
    for(int i=0;i<=m;++i) tax[i]=0;
    for(int i=1;i<=n;++i) tax[rak[i]]++;
    for(int i=1;i<=m;++i) tax[i]+=tax[i-1];
    for(int i=n;i>=1;--i) sa[tax[rak[tp[i]]]--]=tp[i];
}

void SA()
{
    m=256;
    for(int i=1;i<=n;++i)
    rak[i]=a[i],tp[i]=i;
    
    rsort();
    for(int k=1;k<=n;k<<=1)
    {
        int p=0;
        for(int i=n-k+1;i<=n;++i) tp[++p]=i;
        for(int i=1;i<=n;++i) if(sa[i]>k) tp[++p]=sa[i]-k;
        
        rsort();
        swap(rak,tp);
        rak[sa[1]]=p=1;
        for(int i=2;i<=n;++i)
        rak[sa[i]]=(tp[sa[i]]==tp[sa[i-1]]&&tp[sa[i]+k]==tp[sa[i-1]+k])?p:++p;
        if(p>=n) break;
        m=p;
    }
}

void getH()
{
    int k=0;
    for(int i=1;i<=n;++i)
    {
        if(k) k--;
        int j=sa[rak[i]-1];
        while(a[i+k]==a[j+k]) k++;
        height[rak[i]]=k;
    }
}

void RMQ()
{
    for(int i=1;i<=n;++i) mi[i][0]=height[i];
    for(int j=1;(1<<j)<=n;++j)
    for(int i=1;i+(1<<j)-1<=n;++i)
    mi[i][j]=cmin(mi[i][j-1],mi[i+(1<<j-1)][j-1]);
}

int LCP(int x,int y)
{
    int ll=cmin(rak[x],rak[y])+1,rr=cmax(rak[x],rak[y]);
    int k=0;
    while((1<<k+1)<=rr-ll+1) k++;
    return cmin(mi[ll][k],mi[rr-(1<<k)+1][k]);
}

int check(int pos)
{
    int x=pos,y=len1+2;
    for(int i=1;i<=3;++i)
    {
        int len=LCP(x,y);
        x+=len+1; y+=len+1;
        if(y>len1+len2+1) return 1;
    }
    return LCP(x,y)==(len2+len1+1)-y+1;
}

int main()
{
    T=read();
    while(T--)
    {
        scanf("%s",&ss); len1=strlen(ss);
        for(int i=0;i<len1;++i) a[i+1]=ss[i];
        a[len1+1]=123;
        
        scanf("%s",&ss); len2=strlen(ss);
        for(int i=0;i<len2;++i) a[len1+2+i]=ss[i];
        
        n=len1+len2+1;
        SA(); getH(); RMQ();
        
        int ans=0;
        for(int i=1;i<=len1-len2+1;++i)
        if(check(i)) ans++;
        
        printf("%d\n",ans);
    }
    return 0;
}

猜你喜欢

转载自blog.csdn.net/niiick/article/details/85166982