c++截取汉字和英文混合字符串

c++截取汉字和英文混合字符串

在C++里截取字符串可以使用string.substr(),可是这个函数只能按英文来截取,

如果是汉字可能就要计算好字符个数,如果是汉字和英文混合,那就只能望洋兴叹了。

可是恰好我需要这样一个函数,于是就自己实现了一个,其中如何判断汉字和英文

参看了此处

代码简单也无优化,若有更好的方法欢迎提出,代码如下。

复制代码

#include <iostream>
#include <string>
#include<cstdio>
#include<vector>
#include<typeinfo>
using namespace std;

int is_zh_ch(char p)
{

    /*汉字的两个字节的最高为都为1,这里采用判断最高位的方法
    将p字节进行移位运算,右移8位,这样,如果移位后是0,
    则说明原来的字节最高位为0,不是1那么也就不是汉字的一个字节
    */
    if(~(p >> 8) == 0)
    {
        return 1;//代表不是汉字
    }

    return -1;
}



string sub(string str,int start,int end=-1)
{

    if(typeid(str)==typeid(string) && str.length()>0)
    {
        int len=str.length();

        string tmp="";

        //先把str里的汉字和英文分开
        vector <string> dump;
        int i=0;
        while(i<len)
        {
            if (is_zh_ch(str.at(i))==1)
            {
                dump.push_back(str.substr(i,2));
                i=i+2;

            }
            else
            {
                dump.push_back(str.substr(i,1));
                i=i+1;
            }
        }


        end=end>0?end:dump.size(); //end默认为dump.size
        if(start<0||start>end)
            printf("start is wrong");
     //直接从dump里取即可
        for(i=start; i<=end; i++)
        {
            tmp+=dump[i-1];
        }

        return tmp;
    }
    else
    {
        printf("str is not string\n");
        return "";

    }
}

int main()
{
    string p="半山wuji";
    cout<<sub(p,1,1)<<endl;
    cout<<sub(p,2,2)<<endl;
    cout<<sub(p,3);
}

猜你喜欢

转载自blog.csdn.net/boshuzhang/article/details/89375070