正则表达式是一种用于描述特定文本字符(也称为字符串)序列的模式。可使用正则表达式在文本正文中搜索或匹配特定的字符串或字符串类。

使用正则表达式类似于执行通配符搜索,但是正则表达式的功能更强大。正则表达式既可以非常简单,也可以非常复杂。正则表达式的一个简单示例是 cat

它会在应用该正则表达式的任何文本正文中查找字母序列 cat 的第一个实例。如果要确保只查找单词 cat,而不查找 catshepcat 等其他字符串,则可使用以下稍复杂一些的正则表达式:\bcat\b

此表达式包括特殊字符,确保仅当 cat 序列的两端均断字时才匹配。再举一个例子,要执行几乎等效于典型通配符搜索字符串 c+t 的搜索,可以使用以下正则表达式:\bc\w+t\b

这表示查找这样的单词:边界 (\b) 为 c,后跟一个或多个非空格字符、非标点符号字符 (\w+),最后以 t 作为单词边界 (\b)。此表达式将查找 cotcatcroat,但不查找 crate

表达式可以非常复杂。以下表达式可查找任何有效的电子邮件地址。

\b[A-Za-z0-9._%-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}\b

有关创建正则表达式的详细信息,请参见 http://userguide.icu-project.org/strings/regexp