正则表达式——是从左到右与文本进行对比的模板。模板中大多数符号标志其本身并对应在文本中使用符号。
正则表达式的主要优点是可在模板中启用不同方案和进行重复。正则表达式使用不代表自身的元符号编码,这些元符号以特殊方式解读。
有两组不同的元符号:在方括号中使用的元符号和在方括号外使用的元符号。下面分别加以详细介绍。在方括号以外使用下列元符号:
符号
|
说明
|
\
|
普通控制符号(escape),有几种方案
|
^
|
为该行(或多行文本)的开始
|
$
|
为该行(或多行文本)的结束
|
.
|
匹配除了换行符以外的任意符号(默认)
|
[
|
符号类描述开始
|
]
|
符号类描述结束
|
|
|
备选分支开始
|
(
|
子模板开始
|
)
|
子模板结束
|
?
|
扩展 (的意义
以及量词0或1
以及最小化量词
|
*
|
0及更高
|
+
|
1及更高
以及“格量词”
|
{
|
最小/最大量词开始
|
模板方括号内部分称为“符号类"。符号类中的元符号是:
符号
|
说明
|
\
|
普通控制符号(escape)
|
^
|
否定类,但仅在类开始时
|
-
|
确定符号范围
|
[
|
POSIX符号类(如其后为POSIX语法)
|
]
|
关闭符号类
|
|