脚本之家,脚本语言编程技术及教程分享平台!
分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|shell|

服务器之家 - 脚本之家 - Python - Python正则表达式基本原理

Python正则表达式基本原理

2023-04-10 15:27爱吃饼干的小白鼠 Python

正则表达式是一个特殊的符号系列,它可以帮助我们检查某个字符串和某种模式匹配。在python中,re库拥有全部的正则表达式的功能。想了解更多的小伙伴可以参考阅读本文

正则表达式  

大家好,大家都听过正则表达式,却不知道正则表达式干什么的。正则表达式是一个特殊的符号系列,它可以帮助我们检查某个字符串和某种模式匹配。在python中,re库拥有全部的正则表达式的功能。

今天,我们来深入的了解一下。我们知道正则表达式是处理字符串的强大工具,它有自己的语法结构,什么匹配啊,都不算什么。

正则表达式是什么?

正则表达式,又称规则表达式,(英语:Regular Expression,在代码中常简写为 regex、regexp 或 RE),它是计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式的文本。 许多程序设计语言都支持利用正则表达式进行字符串操作。例如在 Perl 中内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由 Unix 中的工具软件普及开的。正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符"))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个"规则字符串",这个"规则字符串"用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串。

1.实例引入

说了一大堆废话,大家可能还是云里雾里的,我们通过实例来说明一下,我们可以用正则表达式测试工具,或者python都可以,首先,我们输入一段文本。

hello,my name is Tina,my phone number is 123456 and my web is http://tina.com.

?
1
[a-zA-z]+://[^\s]*

我们就可以获取网页链接,也就是文本中的url,是不是很神奇?

这是因为它有自己的匹配规则,部分如下。

模式 描述
. 任意字符
* 0个或者多个表达式
+ 一个或者多个表达式

  关于更多的匹配规则可自行查阅。

?,*,+,\d,\w 都是等价字符

?等价于匹配长度{0,1}

*等价于匹配长度{0,}

+等价于匹配长度{1,}

\d 等价于[0-9]

\D 等价于[^0-9]

\w 等价于[A-Za-z_0-9]

\W 等价于[^A-Za-z_0-9]

2.match()

        这里介绍一个常用的匹配方法——match(),向他传入要匹配的字符串以及正则表达式,就可以检测这个正则表达式是否匹配字符串。

匹配目标

?
1
res = re.match('hello\s(\d+)sword')

贪婪匹配

?
1
res = re.match('hello.*(\d+)sword')

3.findall()

我们最常用的就是这个,我们看看这个是如何使用的。

?
1
2
3
4
5
6
7
8
9
10
import re
 
useData = str(input('请输入字符串数据:'))
 
'''
匹配字符串中的数字,+是匹配前面的子表达式一次或多次
'''
digital = re.findall('\d+',useData)
 
print(digital)

我们看看运行结果

Python正则表达式基本原理

 findall()函数是返回所有匹配到的字符串,返回值的数据类型为列表。

常用符号

我们再来说说正则表达式的常用符号吧。

“.”字符为匹配任意单个字符。

“\”字符为转义字符。

“[…]”为字符集。

“(.*?)” 是python爬虫最常用的一个字符,叫贪心算法,可以匹配任意的字符。

 下面我们看一个示例代码。

?
1
2
3
4
5
6
7
import re
 
a=‘xxixxjshdxxlovexxsfhxxpythonxx'
 
data=re.findall(‘xx(.*?)xx')
 
print(data)

我们运行一下,看下效果。

运行结果
[‘I’ ,‘love’,‘python’]

特殊字符

 所谓特殊字符,就是一些有特殊含义的字符,比如讲 runoo*b 中的 ,简单的说就是表示任何字符串的意思。如果要查找字符串中的 * 符号,则需要对 * 进行转义,即在其前加一个 \,runo*ob 匹配字符串 runo\*ob。

 许多元字符要求在试图匹配它们时特别对待。若要匹配这些特殊字符,必须首先使字符"转义",即,将反斜杠字符\ 放在它们前面。下表列出了正则表达式中的特殊字符:

特别字符 描述
$

匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 ‘\n’ 或 ‘\r’。要匹配 $ 字符本身,请使用 $。

() 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 ( 和 )。
* 匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 *。
+ 匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 +。
. 匹配除换行符 \n 之外的任何单字符。要匹配 . ,请使用 . 。

 概念说了一大堆,大家可能也记不住,我直接说几个案例,大家就能明白其他的道理。

这是某网的HTML,部分片段如下:

?
1
2
3
4
5
6
7
<span class=“price”>§<i>123</i></span>
 
<span class=“price”>§<i>133</i></span>
 
<span class=“price”>§<i>156</i></span>
 
<span class=“price”>§<i>189</i></span>

   大家会发现只有中间的一段不一样,而不一样的数据就是我们想要的,我们怎么用正则表达式提取出来呢.

?
1
<span class=“price”>§<i>(.*?)</i></span>

就可以了,我们看看效果吧。

123
133
156
189

总结

        我们可以从HTML代码提取我们想要的数据。我们知道正则表达式就是其中一个有效的办法。通过本文我们基本了解了其中的原理。后面我们将通过两个具体案例来加深对正则表达式的理解。

到此这篇关于Python正则表达式基本原理的文章就介绍到这了,更多相关Python正则表达式内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家!

原文链接:https://blog.csdn.net/BROKEN__Y/article/details/130032579

延伸 · 阅读

精彩推荐
  • Python基于Python的文件类型和字符串详解

    基于Python的文件类型和字符串详解

    下面小编就为大家分享一篇基于Python的文件类型和字符串详解,具有很的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...

    c1awn9272020-12-27
  • Python三行Python代码提高数据处理脚本速度

    三行Python代码提高数据处理脚本速度

    Python是一门非常适合处理数据和自动化完成重复性工作的编程语言,我们在用数据训练机器学习模型之前,通常都需要对数据进行预处理,而Python就非常适...

    北京流浪儿10202022-10-19
  • Python通俗的讲解深度学习中CUDA,cudatookit,cudnn和pytorch的关系

    通俗的讲解深度学习中CUDA,cudatookit,cudnn和pytorch的关系

    有些刚入行的朋友总是搞不清楚CUDA,cudatookit,cudnn和pytorch的关系,那么今天这篇文章用通俗易懂的话讲解了他们之间的关系,需要的朋友可以参考下,相信会对你...

    江江ahh8832023-03-24
  • Pythondjango富文本编辑器的实现示例

    django富文本编辑器的实现示例

    这篇文章主要介绍了django富文本编辑器的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下...

    Pengxingwang6212021-06-14
  • Pythondjango进阶之cookie和session的使用示例

    django进阶之cookie和session的使用示例

    这篇文章主要介绍了django进阶之cookie和session的使用示例,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧...

    rottengeek12262021-03-28
  • Python六个实用Pandas数据处理代码

    六个实用Pandas数据处理代码

    这篇文章主要介绍了六个实用Pandas数据处理代码,文章围绕主题相相关内容,具有一定的参考价价值,需要的小伙伴可以参考一下...

    编程学习网9662022-12-28
  • Python使用PyQt5设计GUI实现程序图形界面设计

    使用PyQt5设计GUI实现程序图形界面设计

    当我们学会如何在pycharm中配置pyqt5设计GUI之后,那么本文来带你熟悉PyQt5设计GUI流程并为程序设计图形界面,设计一个属于自己的GUI...

    小康哥9802021-12-22
  • PythonMAC下Anaconda+Pyspark安装配置详细步骤

    MAC下Anaconda+Pyspark安装配置详细步骤

    一般MAC上使用的是zsh的shell工具,需要修改zshrc文件来使环境变量永久生效(若不修改该文件,在命令行中输入相应的命令即可,本文给大家介绍MAC下Anacond...

    Sun_Sherry6232022-03-11