正则表达式之基础入门

原创

Honyelchak 2023-01-03 11:47:50 博主文章分类：正则表达式 ©著作权

©著作权归作者所有：来自51CTO博客作者Honyelchak的原创作品，请联系作者获取转载授权，否则将追究法律责任

还有很多这样的字符，在这里只列出四个：

字符	含义
\d	任意一个数字，0~9中的任意一个
\w	任意一个字母或数字或下划线，也就是A_Z,az,0~9,_中任意一个
\s	包括空格、制表符、换行符或空白字符的其中任意一个
.	小数点可以匹配任意一个字符(除了换行符)，如果要匹配“\n”在内的所有字符，一般用[\s\S]

例如：

\d\d\d可以匹配123\d可以匹配任意一个数字

[]方括号匹配方式，能够匹配方括号中任意一个字符。

修饰匹配次数的特殊符号。

通过在 *、+ 或 ? 限定符之后放置 ?，该表达式从"贪心"表达式转换为"非贪心"表达式或者最小匹配。

比如你想写一个爬虫，需要用正则表达式去匹配你想要的内容：

<h1>2019happy birthday！</h1>

贪婪模式：<.*>

匹配全部<h1>2019happy birthday！</h1>

非贪婪模式：<.*?>

匹配到了两部分<h1>和</h1>

Ps： 不能将限定符与定位符一起使用。由于在紧靠换行或者单词边界的前面或后面不能有一个以上位置，因此不允许诸如 ^* 之类的表达式。

举个例子：

比如你有如下一堆文本，从上到到下编号为1~4

Chapter
AChapter
ChapterA
AChapterA

\bChapter可以匹配1、2
\bChapter\b、\bChapter$、^Chapter$可以匹配1
\BChapter可以匹配2、4
\BChapter\B可以匹配4
^Chapter可以匹配1、3(前提：匹配模式为匹配多行模式)

在用某一门语言的正则匹配时，最好还是要去阅读语言自身API

比如在Java中:
Pattern.compile(rexp,Pattern.CASE_INSENSITIVE) 表示表达式整体都忽略大小写。

用圆括号将所有选项括起来，相邻的选择项之间用|分割。
但是圆括号会有一个副作用，使相关的匹配会被缓存(加载到内存中，这可不是个好事情)

表达式	作用
\|	左右两边表达式“或”关系，匹配左边或者右边
()	(1).在被修饰匹配次数的时候，括号中的表达式可以作为整体被修饰。(2).取匹配结果的时候，括号中的表达式匹配到的内容可以被单独得到。(3).每一对括号会分配一个编号，使用()的捕获根据左括号的顺序从1开始自动编号。捕获元素编号为零的第一个捕获是由整个正则表达式模式匹配的文本
(?:Expression)	一些表达式中，不得不使用()，但又不需要保存()中子表达式匹配的内容，这时可以用非捕获组来抵消使用()带来的副作用