7.2.2　使用正则表达式匹配规则字符串

2026年01月15日

版权

正则表达式是一种特殊的文本模式,能够使用单个字符串来描述、匹配一系列符合某个句法规则的字符串,进而替换、删除、提取该字符子串。在文本分析中,正则表达式通常可以配合一些模式匹配函数来对文本数据进行处理。

首先给出常用元字符及其含义描述,如表7-1所示。

表7-1　常用元字符及其描述

接下来,结合stringr包中的str_view和str_view_all函数来介绍如何使用上述元字符。

1.基础匹配

除元字符外,几乎所有可显示的字符都可以直接作为正则表达式匹配它们自身,如“a”可以匹配“a”,“0”可以匹配“0”等,我们可以通过字符本身来进行精确匹配,示例如下(结果如图7-2所示):

图7-2　精确匹配

点运算符(.)可以匹配除换行符外的任意单个字符,示例如下(结果如图7-3所示):

图7-3　任意匹配

通过输出结果可以看到,“.”匹配了每个字符串的第一个字母,但是并没有匹配“.”本身,这是因为在正则表达式中这类字符已经被转义,故不再用来匹配它们自身。那么,如果想要匹配这类字符,应该怎样做呢?

在正则表达式中,需要使用转义字符来对这类有特殊含义的字符(正则表达式中的元字符)进行匹配。在R语言中,正则表达式也使用“\.”来去除某些字符的特殊含义。因此,若需要匹配“.”,则需要使用“\.”。然而,“\”也是元字符,也需要使用“\”对其进行转义,因此,在正则表达式中,需要使用“\\.”来匹配“.”,示例如下(结果如图7-4所示):