正则表达式--类型

正则表达式用于字符串处理、表单验证等场合，实用高效。现将一些常用的表达式收集于此，以备不时之需。

　　匹配中文字符的正则表达式： [\u4e00-\u9fa5]
　　评注：匹配中文还真是个头疼的事，有了这个表达式就好办了

　　匹配双字节字符(包括汉字在内)：[^\x00-\xff]
　　评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）

　　匹配空白行的正则表达式：\n\s*\r
　　评注：可以用来删除空白行

　　匹配HTML标记的正则表达式：<(\S*?)[^>]*>.*?</\1>|<.*? />
　　评注：网上流传的版本太糟糕，上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力

　　匹配首尾空白字符的正则表达式：^\s*|\s*$
　　评注：可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式

　　匹配Email地址的正则表达式：\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
　　评注：表单验证时很实用

　　匹配网址URL的正则表达式：[a-zA-z]+://[^\s]*
　　评注：网上流传的版本功能很有限，上面这个基本可以满足需求

　　匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$
　　评注：表单验证时很实用

　　匹配国内电话号码：\d{3}-\d{8}|\d{4}-\d{7}
　　评注：匹配形式如 0511-4405222 或 021-87888822

　　匹配腾讯QQ号：[1-9][0-9]{4,}
　　评注：腾讯QQ号从10000开始

　　匹配中国邮政编码：[1-9]\d{5}(?!\d)
　　评注：中国邮政编码为6位数字

　　匹配身份证：\d{15}|\d{18}
　　评注：中国的身份证为15位或18位

　　匹配ip地址：\d+\.\d+\.\d+\.\d+
　　评注：提取ip地址时有用

　　匹配特定数字：
　　^[1-9]\d*$　　 //匹配正整数
　　^-[1-9]\d*$ 　 //匹配负整数
　　^-?[1-9]\d*$　　 //匹配整数
　　^[1-9]\d*|0$　 //匹配非负整数（正整数 + 0）
　　^-[1-9]\d*|0$　　 //匹配非正整数（负整数 + 0）
　　^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$　　 //匹配正浮点数
　　^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$　 //匹配负浮点数
　　^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$　 //匹配浮点数
　　^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$　　 //匹配非负浮点数（正浮点数 + 0）
　　^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$　　//匹配非正浮点数（负浮点数 + 0）
　　评注：处理大量数据时有用，具体应用时注意修正

　　匹配特定字符串：
　　^[A-Za-z]+$　　//匹配由26个英文字母组成的字符串
　　^[A-Z]+$　　//匹配由26个英文字母的大写组成的字符串
　　^[a-z]+$　　//匹配由26个英文字母的小写组成的字符串
　　^[A-Za-z0-9]+$　　//匹配由数字和26个英文字母组成的字符串
　　^\w+$　　//匹配由数字、26个英文字母或者下划线组成的字符串
　　评注：最基本也是最常用的一些表达式

定位符：

\b 定位单词（字母、数字、汉字或“_”组合的字符串，即由不少于1个“\w”组成）界限。空格、除了“_”的特殊符号及标点符号、换行符、回车符、制表符（Tab）等构成该界限。

^ 定位输入文本（text）的开头。

$ 定位输入文本（text）的结尾（使用了^和$后，pattern和输入文本进行整体比较）。

重复：

* 指定*前边的内容可以连续重复任意次（0,1,2...）以使整个表达式得到匹配(下边的+、?、{}都是同一类限定符)。

+ 可以重复1次或多次的前导字符（类似于*）。

? 可以重复0次或1次的前导字符.

\d 匹配一位数字(0，或1，或2，或……)。

\d{2} 表示匹配两位重复的数字。

\d{4,} 匹配重复4次或更多次的数字。

\d{3,6} 匹配3~6位的连续重复数字。

常用匹配符：

. 匹配除了换行符以外的任意字符。

\s 匹配任意的空白符，包括空格，制表符(Tab)，换行符，中文全角空格等。

\w 匹配字母、数字、下划线或汉字等一个字符(等价于[a-z0-9A-Z_])。

字符转义：

\ 使用反斜杠组成“\.”“\\”等格式，来匹配“.”和“\”等字符。

字符类：

[] 字符类。将要查找的字符罗列在[]内。如[aeiou]、[a-g]、[a-z0-9A-Z_]。

复杂的例子：

分支条件：

含义：分枝条件指的是有几种规则，如果满足其中任意一种规则都应该当成匹配，具体方法是用|把不同的规则分隔开。

注意：使用分枝条件时，要注意各个条件的顺序。匹配分枝条件时，将会从左到右地测试每个条件，如果满足了某个分枝的话，就不会去再管其它的条件了。

例子：\(?0\d{2}[) -]?\d{8}可以匹配(010)88886666，或022-22334455，或02912345678等格式的号码，但也会错误匹配到010)12345678或(022-87654321的格式。

改为 $0 \d 2$

分组：

用途：用小括号来指定子表达式

(([01]?\d?\d|2[0-4]\d|25[0-5])\.){3}([01]?\d?\d|2[0-4]\d|25[0-5]) 匹配IP地址。

反义：

用途：查找或定位不属于某个能简单定义的字符类的字符。

\B 定位不是字边界的任意位置。

\S 匹配任何不是空白的字符。

\W 匹配任意不是字母，数字，下划线，汉字的字符.

\D 匹配任意非数字的字符.

[^x] 匹配除了x以外的任意字符.

[^aeiou]匹配除了x以外的任意字符.

例子：\S+ 匹配不包含空白符的字符串。

<a[^>]+>匹配用尖括号括起来的以a开头的字符串。

后向引用：

用途：用于重复搜索前面某个分组匹配的文本。例如，\1代表分组1匹配的文本。

注意：分组0对应整个正则表达式。

实际上组号分配过程是要从左向右扫描两遍的：第一遍只给未命名组分配，第二遍只给命名组分配－－因此所有命名组的组号都大于未命名的组号。

(exp) 匹配exp,并捕获文本到自动命名的组里。

(?<name>exp) 匹配exp,并捕获文本到名称为name的组里，也可以写成(?'name'exp)

(?:exp) 匹配exp,不捕获匹配的文本，也不给此分组分配组号。

例子： \b(\w+)\b\s+\1\b 用来匹配两次重复的单词（单词间有1~多个空白字符）。

零宽断言：

用途：定位一个位置，但是不对该内容进行匹配。

(?=exp) 匹配exp前面的位置

(?<=exp) 匹配exp后面的位置

(?!exp) 匹配后面跟的不是exp的位置

(?<!exp) 匹配前面不是exp的位置

注释：

(?#comment)

贪婪与懒惰：

*? 重复任意次，但尽可能少重复

+? 重复1次或更多次，但尽可能少重复

?? 重复0次或1次，但尽可能少重复

{n,m}? 重复n到m次，但尽可能少重复

{n,}? 重复n次以上，但尽可能少重复

处理选项：

IgnoreCase(忽略大小写) 匹配时不区分大小写。

Multiline(多行模式) 更改^和$的含义，使它们分别在任意一行的行首和行尾匹配，而不仅仅在整个字符串的开头和结尾匹配。(在此模式下,$的精确含意是:匹配\n之前的位置以及字符串结束前的位置.)

Singleline(单行模式) 更改.的含义，使它与每一个字符匹配（包括换行符\n）。

IgnorePatternWhitespace(忽略空白) 忽略表达式中的非转义空白并启用由#标记的注释。

ExplicitCapture(显式捕获) 仅捕获已被显式命名的组。

平衡组/递归匹配：

(?'group') 把捕获的内容命名为group,并压入堆栈(Stack)

(?'-group') 从堆栈上弹出最后压入堆栈的名为group的捕获内容，如果堆栈本来为空，则本分组的匹配失败

(?(group)yes|no) 如果堆栈上存在以名为group的捕获内容的话，继续匹配yes部分的表达式，否则继续匹配no部分

(?!) 零宽负向先行断言，由于没有后缀表达式，试图匹配总是失败

一、抽象和类

注意事项及一些要点技巧：

1，使用#ifndef来访问多次包含同一个文件，防止头文件被重复引用。（“被重复引用”是指一个头文件在同一个cpp文件中被include了多次，这种错误常常是由于include嵌套造成的。比如：存在a.h文件#include "c.h"而此时b.cpp文件导入了#include "a.h" 和#include "c.h"此时就会造成c.h重复引用。）

格式如下：

[cpp] view plain copy

#ifndef XX_H
#define XX_H
...
#endif

2，使用类对象的程序都可以直接访问公有部分，但只能通过公有成员函数（或友元函数）来访问对象的私有成员。private是类对象的默认访问控制，因此不必在声明中使用。

3，在类声明中定义方法等同于用原型替换方法定义，然后在类声明的后面将定义该写为内联函数。

4，修改实现：

如果要使数字格式保持一致，ostream类包含可用于控制格式的成员函数。

std::cout.setf(std::ios_base::fixed,std::ios_base::floatfield)

即设置了cout对象的一个标记，命令cout使用定点表示法。

二、类的析构函数和构造函数

程序不能直接访问数据成员，而必须通过成员函数访问，才能成功地将对象初始化。一般来说，最好是在创建对象时对它进行初始化。

1、类构造函数

专门用于构造新对象，将值赋给它们的数据成员。程序声明对象时，将自动调用构造函数。

构造函数与new创建对象的方法(stock为一个类)：

Stock *pstock = new Stock("qwe",18,19.0);

总而言之，构造函数被用来创建对象，而不能通过对象来调用。

2、默认构造函数

当且仅当没有定义任何构造函数时，编译器才会提供默认构造函数。所以，为类定义了构造函数后，我们就必须为它提供默认构造函数。

定义方式：

① 给已有构造函数的所有参数提供默认值。

② 通过函数重载定义另一个没有参数的构造函数

创建默认构造函数后，便可以声明对象变量，而不对它们进行显示初始化。

3，析构函数

析构函数完成清理工作。如果构造函数使用new来分配内存，则析构函数必须使用delete来释放这些内存。

4， const成员函数

只要类方法不修改调用对象，就应该将其声明为const。

例如，我们创建了一个Stock对象：const Stock land = Stock("qwew");要使其调用show()函数，则函数声明应为：void show() const;函数定义的开头也应该为：void Stock::show() const。

三、this指针

1，使用方法

① 在类的非静态成员函数中返回类对象本身的时候，使用return *this。

② 当参数与成员变量名相同时，如this->n = n。

2，特点

① 只能在成员函数中使用。

② 在成员函数的开始前构造，在成员函数的结束后清除。

了解了this指针，在实现成员函数例如void Stock::show() const时，我们即可写做 void show(const Stock *this),其中的数据成员用this->name代替。前端调用如top.show()则可以转换为show(&top)，这样，将调用的地址赋给了this指针。

四、对象数组

初始化对象数组的方法：

首先使用默认构造函数创建数组元素，然后花括号中的构造函数将创建临时对象，然后将临时对象的值复制到相应的元素中。

五、类作用域

在类中定义的名称的作用域为整个类，而该名称只在该类中是已知的，因此，可以在不同类中使用相同的类成员名而不会引起冲突。

创建作用域为类的常量的方法：
① 在类中声明一个枚举:

[cpp] view plain copy

class Bakery{
private:
enum{months = 12};
double costs[months];
…

② 使用关键字static:

[cpp] view plain copy

class Bakery
{
private:
static const int months = 12;
double costs[months];

正则表达式--类型

猜你喜欢