用正则表达式怎样统计字母出现的次数java 正则表示字母

转载

mob64ca13f6035c 2024-05-28 14:18:45

用[0-9]、[a-z]等字符组，可以很方便地表示数字字符和小写字母字符。对于这类常用的字符组，正则表达式提供了更简单的记法，这就是字符组简记法（shorthands）。

常见的字符组简记法有\d、\w、\s。从表面上看，它们与[…]完全没联系，其实是一致的。其中\d等价于[0-9]，其中的d代表"数字（digit）"；\w等价于[0-9a-zA-Z_]，其中的w代表"单词字符（word）"；\s等价于[ \t\r\n\v\f]（第一个字符是空格），s表示"空白字符（space）"。例1-17说明了这几个字符组简记法的典型匹配。

例1-17 字符组简记法\d、\w、\s

#如果没有原生字符串，\d就必须写作\\d  
re.search(r"^\d$", "8") != None     #  => True  
re.search(r"^\d$", "a") != None     #  => False  
 
re.search(r"^\w$", "8") != None     #  => True  
re.search(r"^\w$", "a") != None     #  => True  
re.search(r"^\w$", "_") != None     #  => True  
 
re.search(r"^\s$", " ") != None     #  => True  
re.search(r"^\s$", "\t") != None    #  => True  
re.search(r"^\s$", "\n") != None    #  => True

一般印象中，单词字符似乎只包含大小写字母，但是字符组简记法中的"单词字符"不只有大小写单词，还包括数字字符和下画线_，其中的下画线_尤其值得注意：在进行数据验证时，有可能只容许输入"数字和字母"，有人会偷懒用\w验证，而忽略了\w能匹配下画线，所以这种匹配并不严格，[0-9a-zA-Z]才是准确的选择。

"空白字符"并不难定义，它可以是空格字符、制表符\t，回车符\r，换行符\n等各种"空白"字符，只是不方便展现（因为显示和印刷出来都是空白）。不过这也提醒我们注意，匹配时看到的"空白"可能不是空格字符，因此，\s才是准确的选择。

字符组简记法可以单独出现，也可以使用在字符组中，比如[0-9a-zA-Z]也可以写作[\da-zA-Z]，所以匹配十六进制字符的字符组可以写成[\da-fA-F]。字符组简记法也可以用在排除型字符组中，比如[^0-9]就可以写成[^\d]，[^0-9a-zA-Z_]就可以写成[^\w]，代码如例1-18。

例1-18 字符组简记法与普通字符组混用

#用在普通字符组内部  
re.search(r"^[\da-zA-Z]$", "8") != None  #  => True  
re.search(r"^[\da-zA-Z]$", "a") != None  #  => True  
re.search(r"^[\da-zA-Z]$", "C") != None  #  => True  
#用在排除型字符组内部  
re.search(r"^[^\w]$", "8") != None       #  => False  
re.search(r"^[^\w]$", "_") != None       #  => False  
re.search(r"^[^\w]$", ",") != None       #  => True

相对于\d、\w和\s这三个普通字符组简记法，正则表达式也提供了对应排除型字符组的简记法：\D、\W和\S--字母完全一样，只是改为大写。这些简记法匹配的字符互补：\s能匹配的字符，\S一定不能匹配；\w能匹配的字符，\W一定不能匹配；\d能匹配的字符，\D一定不能匹配。例1-19示范了这几个字符组简记法的应用。

例1-19 \D、\W、\S的使用

#\d和\D  
re.search(r"^\d$", "8") != None     #  => True  
re.search(r"^\d$", "a") != None     #  => False  
re.search(r"^\D$", "8") != None     #  => False  
re.search(r"^\D$", "a") != None     #  => True  
#\w和\W  
re.search(r"^\w$", "c") != None     #  => True  
re.search(r"^\w$", "!") != None     #  => False  
re.search(r"^\W$", "c") != None     #  => False  
re.search(r"^\W$", "!") != None     #  => True  
#\s和\S  
re.search(r"^\s$", "\t") != None    #  => True  
re.search(r"^\s$", "0") != None     #  => False  
re.search(r"^\S$", "\t") != None    #  => False  
re.search(r"^\S$", "0") != None     #  => True

妥善利用这种互补的属性，可以得到一些非常巧妙的效果，最简单的应用就是字符组[\s\S]。初看起来，在同一个字符组中并列两个互补的简记法，这种做法有点奇怪，不过仔细想想就会明白，\s和\S组合在一起，匹配的就是"所有的字符"（或者叫"任意字符"）。许多语言中的正则表达式并没有直接提供"任意字符"的表示法，所以[\s\S]、[\w\W]、[\d\D]虽然看起来有点古怪，但确实可以匹配任意字符。

关于字符组简记法，最后需要补充两点：第一，如果字符组中出现了字符组简记法，最好不要出现单独的-，否则可能引起错误，比如[\d-a]就很让人迷惑，在有些语言中，-会被作为普通字符，而在有些语言中，这样写会报错；第二，以上说的\d、\w、\s的匹配规则，都是针对ASCII编码而言的，也叫ASCII匹配规则。但是，目前一些语言中的正则表达式已经支持了Unicode字符，那么数字字符、单词字符、空白字符的范围，已经不仅仅限于ASCII编码中的字符。关于这个问题，具体细节在后文有详细的介绍，如果你现在就想知道，可以翻到第115页。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。