正则表达式的用法

落花生 2022-03-15 0 条评论 486 个足迹 学习笔记,知识分享

首页 / 学习笔记,知识分享 / 正文
星环博客

前言

对于一个字符串匹配最好的用法就是用正则表达式,因为正则表达式的使用范围广,使用性更强。

作用

正则表达式的主要作用是:分割、匹配、查找、替换

转义字符

\d 包含所有数字[0-9]
\D 除所有数字外[^0-9]
\w 包含所有字符(大小写英文字母、下划线、数字) [a-zA-Z_0-9]
\W 除所有字符(大小写英文字母、下划线、数字)外 [^a-zA-Z_0-9]
\s 空白区域如回车、换行、分页等 [\f\n\r]
\S 非空白区域如回车、换行、分页等 [^\f\n\r]

元字符

. 匹配任意次但不包含回车换行
* 匹配任意次
? 匹配0次或1次
+ 匹配1次或多次
| 选择匹配(或者)
^ 匹配开头(方括号中表示非)
$ 匹配尾部
{m} 匹配前一个内容的重复次数为m次
{m,} 匹配前一个内容的重复次数大于等于m次
{m,n}匹配前一个内容的重复次数m次到n次
( ) 合并整体匹配,并放入内存,可使用\1 \2...依次获取

模式修正符:【/正则/U 】

小写i:不区分大小写
小写m:匹配首内容或尾内容时采用多行识别匹配
小写s:将转义回车取消视为单行匹配
小写x:忽略正则中的空白
大写A:强制从头开始匹配
大写D:强制$匹配尾部无任何内容
大写U:禁止贪婪匹配,只跟踪到最近的一个匹配符并结束,常用在采集程序
小写u:匹配中文

Perl正则表达式函数:

preg_grep($mode,$str) //匹配查找,返回一个数组;
preg_match($mode,$str,$return) //在字符串中查找匹配项,返回一个数组。
preg_match_all($mode,$str,$return [,int flags])
preg_split($mode,$str [,int limit 切割多少次 [,int flags] ] ) //使用正则表达式分割字符串,并将结果以数组的形式返回(类似explode)。
preg_replace($mode,$replacement,$str [,int limit 匹配多少次]) //查找和替换子字符串(类似str_replace)
preg_quote($str) //在每个正则表达式的特殊字符前面加入一个转义字符(反斜线“\”),正则表达式的特殊字符包括:.\\+*?[^]$(){}=!<>|:

例子

//删除一对中括号内的内容:
$str = 'abc[url]123[/url]xyz';
$pattern = '/\[url\S*\[\/url\S*\]/';
$str = preg_replace($pattern, '', $str);
echo $str . ''; //输出:abcxyz
 
//PHP匹配多对中括号中的内容:
$str = '这是[3]def[25]我的[26]';
$pattern = '/\[([a-z0-9]+)\]/';
preg_match($pattern, $str, $match);
print_r($match);
 
//匹配所有大括号里面的内容:
$str = 'abc{title}def{author}mn';
$pattern = '/{(.*)}/U';
preg_match($pattern, $str, $match);
print_r($match);
 
//匹配网页源代码中的图片路径:
$str = '<img alt="标题" id="pic" src="http://test.cn/avatar.jpg" />';
$pattern = '/<img.*?src="(.*?)".*?\/?>/i';
preg_match($pattern,$str,$match);
print_r($match);
 
//匹配当前页面的所有超链接:
$str = '<a href="http://www.test.com/a.html">跳转</a>';
$pattern = '/<a(.*?)href="(.*?)"(.*?)>(.*?)<\/a>/i';
preg_match($pattern, $str, $match);
print_r($match);
 
//匹配邮件
$str = '12345@qq.com';
$pattern = "/^[_a-z0-9-]+(\.[_a-z0-9-]+)*@[a-z0-9-]+(\.[a-z0-9-]+)*(\.[a-z]{2,})$/i";
preg_match($pattern, $str, $match);
print_r($match);
 
//匹配11位手机号:
$str = '13299803211';
$pattern = "/^1(3|5|8)\d{9}$/";
preg_match($pattern, $str, $match);
print_r($match);
 
//匹配139开头的11位手机号码
$str = '13912345678';
$pattern = '/^139\d{8}$/';
preg_match($pattern,$str,$match);
print_r($match);
 
//UTF-8编码下提取字符串中的中文:
$str = 'hello 中文 byebye';
$pattern = '/[\x{4e00}-\x{9fa5}]+/u';
preg_match($pattern, $str, $match);
print_r($match); //“中文”
 
//替换字符串中的中文为空
$res = preg_replace($pattern,'',$str);
echo $res.’';
 
//分割中文字符串为等长度元素的数组(英文可以用str_split,但中文会乱码)
$str = '中文字符串';
$res = preg_split('/(?<!^)(?!$)/u', $str);
print_r($res);
 
//过滤网页上的所有script标记
$str = '<script type="text/javascript" src="dd.js">alert(123);</script><p style="color: red">测试php正则匹配掉js代码</p>';
$pattern = "/<script[\s\S]*?<\/script>/i"; //过滤JS标签
$pattern = "/<[\/\!]*?[^<>]*?>/si"; //过滤HTML标签
$res = preg_replace($pattern, "", $str);
echo $res.’';
 
//替换<b>标签为空
$str = '<b>abc</b><b>abc</b>';
$pattern = '/<b>(.*?)<\/b>/';
$res = preg_replace($pattern,'\\1',$str);
echo $res.'';//删除一对中括号内的内容:
$str = 'abc[url]123[/url]xyz';
$pattern = '/\[url\S*\[\/url\S*\]/';
$str = preg_replace($pattern, '', $str);
echo $str . ''; //输出:abcxyz
 
//PHP匹配多对中括号中的内容:
$str = '这是[3]def[25]我的[26]';
$pattern = '/\[([a-z0-9]+)\]/';
preg_match($pattern, $str, $match);
print_r($match);
 
//匹配所有大括号里面的内容:
$str = 'abc{title}def{author}mn';
$pattern = '/{(.*)}/U';
preg_match($pattern, $str, $match);
print_r($match);
 
//匹配网页源代码中的图片路径:
$str = '<img alt="标题" id="pic" src="http://test.cn/avatar.jpg" />';
$pattern = '/<img.*?src="(.*?)".*?\/?>/i';
preg_match($pattern,$str,$match);
print_r($match);
 
//匹配当前页面的所有超链接:
$str = '<a href="http://www.test.com/a.html">跳转</a>';
$pattern = '/<a(.*?)href="(.*?)"(.*?)>(.*?)<\/a>/i';
preg_match($pattern, $str, $match);
print_r($match);
 
//匹配邮件
$str = '12345@qq.com';
$pattern = "/^[_a-z0-9-]+(\.[_a-z0-9-]+)*@[a-z0-9-]+(\.[a-z0-9-]+)*(\.[a-z]{2,})$/i";
preg_match($pattern, $str, $match);
print_r($match);
 
//匹配11位手机号:
$str = '13299803211';
$pattern = "/^1(3|5|8)\d{9}$/";
preg_match($pattern, $str, $match);
print_r($match);
 
//匹配139开头的11位手机号码
$str = '13912345678';
$pattern = '/^139\d{8}$/';
preg_match($pattern,$str,$match);
print_r($match);
 
//UTF-8编码下提取字符串中的中文:
$str = 'hello 中文 byebye';
$pattern = '/[\x{4e00}-\x{9fa5}]+/u';
preg_match($pattern, $str, $match);
print_r($match); //“中文”
 
//替换字符串中的中文为空
$res = preg_replace($pattern,'',$str);
echo $res.’';
 
//分割中文字符串为等长度元素的数组(英文可以用str_split,但中文会乱码)
$str = '中文字符串';
$res = preg_split('/(?<!^)(?!$)/u', $str);
print_r($res);
 
//过滤网页上的所有script标记
$str = '<script type="text/javascript" src="dd.js">alert(123);</script><p style="color: red">测试php正则匹配掉js代码</p>';
$pattern = "/<script[\s\S]*?<\/script>/i"; //过滤JS标签
$pattern = "/<[\/\!]*?[^<>]*?>/si"; //过滤HTML标签
$res = preg_replace($pattern, "", $str);
echo $res.’';
 
//替换<b>标签为空
$str = '<b>abc</b><b>abc</b>';
$pattern = '/<b>(.*?)<\/b>/';
$res = preg_replace($pattern,'\\1',$str);
echo $res.'';

解题方法总结:

1.先写出一个要匹配的字符串
2.自左向右的顺序使用正则表达式的原子和元字符拼接
3.加入模式修正符

转载原作者为: https://www.cnblogs.com/rxbook/p/10912829.html

本文链接: https://www.xhto.cn/archives/97.html

友情提示:添加友联和友联失效404的请联系博主,并确保自己网站已经添加博主为友联!

2022年03月15日 09:59:02 © 本文允许各作者规范转载

黑色的背后是黎明... + 赞赏博主吧!已经穷的开不起站了~

上一篇 下一篇
奇思幻想
表情
签到
赞一下
踩一下
  • PNG静图表情包
  • GIF动图表情包

评论事项 ( 请使用真实邮箱地址,以便接收评论回复信息 )

 这颗星球好像还没有被发现~
这里是B612星球,小王子外出寻找她的绵羊了,留言等她吧...
赞赏作者

支付宝

微信

支付宝红包码

[ 赞赏码 ]

打开对应软件 - 扫码赞赏

赞赏请备注好昵称和邮箱,方便公布排行榜

博客信息

文章数目79 篇
评论数目112 条
运行天数3年251天
友链特数0 条

广而告之

当前文章标签

https://www.xhto.cn/usr/themes/only/x-data/url.php
当前网站已经离线 - 星环博客
星环博客+https://www.xhto.cn/
https://www.xhto.cn/usr/themes/only/x-user/xeq_zfb.jpg
https://www.xhto.cn/usr/themes/only/x-user/xeq_wx.jpg
https://www.xhto.cn/usr/themes/only/x-user/xeq_hbm.jpg

即将离开 星环博客

您即将离开星环博客,请注意您的帐号和财产安全。


继续访问

星环博客 的运行时间:

花有重开日,人无再少年。

站点创建时间:2020-08-17 +  版权归属 星环博客 所有 +  © 2024 Copyright +  备案号: 粤ICP备2020118789号 +  不理白驹过隙,不信生死有命 +  页面加载速度:359ms
https://www.xhto.cn/usr/themes/only/x-img/xloading.gif