题目描述
三核苷酸是组成 序列的基本片段。具体来说,核苷酸一共有 种,分别用 来表示。而三核苷酸就是由 个核苷酸排列而成的 片段
三核苷酸一共有 种。给定一个长度为 的 序列,一共可以分辨出 个三核苷酸。现在我们想用一些统计学的方法来进行一些分析,步骤如下:
对于这 个三核苷酸,我们从左到右给予编号,分别为 到 。
从这 个三核苷酸挑选一对出来,一共有 种可能。如果某一对三核苷酸是一样的,我们就记录他们之间的距离。他们之间的距离定义为他们的编号之差。
根据我们所记录的“样本数据”,我们现在需要计算样本数据的方差。如果样本的大小 ,那么我们认为 。
题目解析
设 为平均数, 为有多少对, 为有每对的值对,答案是
由此可知,不用得到每个 ,只要知道所有 的和以及平方和。
设 为每对的位置, 为有多少个片段与 的相同, 为 的和, 为 的平方和
{加入第 段时更新 的和}
{根据平方和公式,加入第 段时更新 的平方和}
最后化简公式可得 所有 的平方和 和的平方
代码
#include<bits/stdc++.h>
#define N 100005
using namespace std;
int T;
long long a[N],cnt[N],sqrs[N],sums[N],sum[N],sqr[N],gs,x,y;
double ans;
char c[N];
string s;
int main()
{
freopen("tri.in","r",stdin);
freopen("tri.out","w",stdout);
scanf("%d",&T);
while(T--)
{
for(int i=111;i<=444;i++)
sqr[i]=sum[i]=sqrs[i]=sums[i]=cnt[i]=0;
scanf("%s",c);
s=c;
for(int i=0;i<s.size();i++)
if(s[i]=='A') a[i]=1;
else if(s[i]=='G') a[i]=2;
else if(s[i]=='C') a[i]=3;
else a[i]=4;
for(int i=0;i<s.size()-2;i++)
a[i]=a[i]*100+a[i+1]*10+a[i+2];
for(int i=0;i<s.size()-2;i++)
{
sqr[a[i]]+=cnt[a[i]]*i*i+sqrs[a[i]]-2*i*sums[a[i]];
sum[a[i]]+=cnt[a[i]]*i-sums[a[i]];
sqrs[a[i]]+=(long long)i*i;
sums[a[i]]+=i;
cnt[a[i]]++;
}
gs=x=y=ans=0;
for(int i=111;i<=444;i++)
gs+=cnt[i]*(cnt[i]-1)/2,x+=sqr[i],y+=sum[i];
if(gs==0) ans=0;
else ans=(1.0*x/gs)-(1.0*y/gs)*(1.0*y/gs);
printf("%0.6lf\n",ans);
}
}