第七十八天 --- 力扣187. 重复的DNA序列
题目一
力扣:187
思路
我们在拿到一个题目的时候,先不考虑高级算法,就用最朴素的想法先做
朴素算法
1、我们一拿到这个题,要求是一个字符串的子串,且固定长度10,所以可以用长度为十的固定滑动窗口(即左右指针一起移动),来从头找到所有的符合目标的子串。再次读题,要求子串出现次数>=2,所以我们完全可以用一个unordered_map存储每个子串出现的次数,动态统计个数(一旦某个子串产生了个数变化,就判断一次),一旦发现某个串出现次数==2,符合目标,加入答案。
2、综上,我们就完成了朴素算法的搭建。
哈希+滑动窗口+位运算
1、我们分析一下刚才的算法,我们用滑动窗口划分出所有的子串并没有问题,要找到所有出现次数>=2的,那就必须找到所有子串,再次统计出现个数,所以hash+滑动窗口没问题,不用优化。
2、但是每次窗口找到了一个新的子串,我要把新的串截出来,再放进map,这样就很慢,因为要截串,那么有没有什么办法让每次窗口运动一次,用最快速的方法,计算出来新的串是什么。
3、一定要注意,一个串仅由几个字符组合而成,那么我们完全可以不再用字符来表示,我们可以将之重新编码,用相应的二进制表示,将之压缩成为一个数字,这样,经过重新编码(状态压缩),一个串就变成了一个二进制数。
4、因为目标串只由A、C、G、T组成,所以A:00、C:01、G:10、T:11进行压缩编码,这样长度为10的子串就变成了长度为20的二进制数,因为int是32位,所以可以表示为一个int的整数。
5、那么窗口每次向右移动一次,可以分解成这么三步:
代码
朴素算法
注:
1、因为我们这里涉及,求一个子串且长度固定,所以完全可以尝试滑动窗口算法,每次用一个固定的窗口,划分出来一个子串。
class Solution {
public:
unordered_map<string, int> item;
vector<string> findRepeatedDnaSequences(string s) {
vector<string> ans;
int left = 0, right = 9;//窗口
int n = s.size();
while (right < n) {
string tmp = s.substr(left, 10);//找出子串
item[tmp]++;
if (item[tmp] == 2) {
//动态查找个数是2的目标字串,当且仅当有子串出现个数更新时
ans.push_back(tmp);
}
left++;
right++;
}
return ans;
}
};
(所有代码均已在力扣上运行无误)
经测试,该代码运行情况是(经过多次测试所得最短时间):
哈希+滑动窗口+位运算
class Solution {
public:
unordered_map<char, int> binChar = {
{
'A',0}, {
'C', 1}, {
'G', 2}, {
'T', 3} };//以键值对形式直接给初始值
vector<string> findRepeatedDnaSequences(string s) {
vector<string> ans;
int x = 0xFFFFF;//为了保留低20位,所以低20位 & 1即可
int left = 0, right = 9;//固定窗口
int n = s.size();
if (n <= 10) {
//不合法情况排除
return ans;
}
int base = 0;
for (int i = 0; i < 10; i++) {
//初始化,建立基础窗口
base = base << 2 | binChar[s[i]];//加入新数取 |
}
unordered_map<int, int>cnt;
cnt[base]++;
while (right < n - 1) {
right++;//每次新的窗口快速计算新的值三步,速度O(1)
base = ((base << 2) | binChar[s[right]])&x;
left++;
if (++cnt[base] == 2) {
ans.push_back(s.substr(left, 10));
}
}
return ans;
}
};
(所有代码均已在力扣上运行无误)
经测试,该代码运行情况是(经过多次测试所得最短时间):