php--正则表达式

阅读量：793 次

发布时间：2023-02-28

本文共 1525 字，大约阅读时间需要 5 分钟。

正则表达式入门指南

1. 定义与作用

正则表达式（Regular Expression，简称 regex）是一种强大的字符串匹配工具，广泛应用于文本处理、数据验证、编程等领域。它能够描述字符的模式，并用于匹配、替换或提取特定子串。例如，简单的 dir *.txt 并非正则表达式，因为它使用了特殊字符 * 来表示任意字符，而正则表达式中的 * 具有完全不同的含义。

2. 正则表达式的基础

2.1 普通字符

正则表达式中的大部分字符都是普通字符，包括字母、数字、标点符号和一些空白字符。这些字符无需特殊处理，直接用于匹配对应的字符。

2.2 非打印字符

某些字符如制表符、换行符、垂直制表符等，虽然在日常文本中常见，但在正则表达式中需要使用转义符来表示。例如：

\t 匹配制表符。

\n 匹配换行符。

\r 匹配回车符。

\s 匹配任何空白字符（包括空格、制表符、换页符等）。

\S 匹配非空白字符。

2.3 特殊字符

正则表达式中的某些字符具有特殊含义，必须使用转义符来表示其原义。例如：

* 匹配零次或多次重复的字符。

+ 匹配一次或多次重复的字符。

? 匹配零次或一次重复的字符。

. 匹配任意单个字符（除换行符外）。

$ 匹配字符串的结尾位置。

这些特殊字符需要用反斜杠转义，例如 \$ 表示 $ 字符本身。

3. 限定符

限定符用于指定匹配的字符数量。常见的限定符包括：

*：匹配零次或多次重复的字符（默认行为）。

+：匹配一次或多次重复的字符。

?：匹配零次或一次重复的字符。

{n}：匹配恰好 n 次重复的字符。

{n,}：匹配至少 n 次重复的字符。

{n,m}：匹配 n 到 m 次重复的字符。

这些限定符具有贪婪特性，意味着它们会尽可能多地匹配字符，除非使用 ? 修改其贪婪行为。

4. 定位符

定位符用于描述字符串的位置：

^ 匹配字符串的开始位置。

$ 匹配字符串的结束位置。

\b 匹配单词边界（即单词与空白字符之间的位置）。

\B 匹配非单词边界。

这些定位符不能与限定符一起使用。

5. 选择符

选择符用于在多个匹配项之间进行选择，通过圆括号 () 和 | 符号实现。例如：

a|b 匹配 a 或 b。

a|b|c 匹配 a、b 或 c。

选择符还支持非捕获元，例如 (?!) 表示负向预查。

6. 后向引用

后向引用允许正则表达式在匹配过程中引用之前捕获的子匹配。例如：

(\d)(\D) 捕获一个数字和一个非数字字符。

(\d)(\1) 使用后向引用 \1 表示前一个捕获的数字。

通过使用 ? 修饰符可以忽略对后向引用的存储。

7. PHP 正则表达式扩展

PHP 提供了多种修正符来增强正则表达式的功能：

/i：不区分大小写。

/s：使 . 匹配包括换行符的字符。

/g：在全局模式中进行多次匹配。

/m：使 $ 匹配字符串末尾或换行符前。

通过合理使用这些修正符，可以显著提升正则表达式的灵活性和功能。

8. 实际应用示例

以下是一些常见的正则表达式示例：

/^([a-z]+) (\1)+$/：匹配由小写字母组成的单词，重复出现一次或多次。

/\b\w+(?:-\w+)*\w+\b/：匹配有效的用户名格式。

/(?<year>\d{4})-(?<month>\d{2})-(?<day>\d{2})/：匹配日期格式。

9. 常用工具

preg_replace：执行正则表达式搜索和替换。

preg_match：执行单次正则表达式匹配。

preg_grep：返回匹配模式的数组条目。

preg_split：通过正则表达式分隔字符串。

通过合理运用正则表达式，可以解决多种复杂的文本处理问题，显著提高开发效率。

转载地址：http://zktfk.baihongyu.com/

你可能感兴趣的文章

PHP 面向对象 final类与final方法

php+JQ+EasyUI自动加载数据

php+sql server根据自增序号id区间查询第几条到第几条的数据

php--------获取当前时间、时间戳

Redis使用场景举例

php--正则表达式

php--防止sql注入的方法

PHP-CGI Windows平台远程代码执行漏洞复现(CVE-2024-4577)