溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

python正則re模塊

發布時間：2020-04-30 04:38:43 來源：網絡閱讀：331 作者：cxf210210 欄目：編程語言

歡×××陳師傅”

re正則處理

正則定義

正則表達式是對字符串操作的一種邏輯公式，就是用事先定義好的一些特定字符、及這些特定字符的組合，組成一個“規則字符串”，這個“規則字符串”用來表達對字符串的一種過濾邏輯。

常用正則表達式的方法

re.compile(編譯)
pattern.match(從頭匹配)
pattern.search(匹配一個)
pattern.findall(匹配所有)
pattern.sub(替換)

特殊字符集

特殊字符	解釋
.	匹配除換行符之外的任何字符
^	匹配字符串的開頭
$	匹配字符串的結尾
*	匹配前面的字符0次或更多次，盡可能多的重復，ab*將匹配'a','ab'或者a后面加任意數量的b
+	匹配前面的字符一次或更多次，ab+將匹配'ab'后加任意數量的b
?	匹配前面的字符0次或一次，ab將匹配'a'或'ab'
*?,+?,??	*,+,?都屬于貪婪匹配，就是盡可能多的匹配，而有時我們希望以最少的模式匹配，可以在限定符之后加?表示以最少的方式匹配
{m}	匹配前一個字符至少m次
{m,n}	匹配前一個字符最少m次，最多n次
{m,n}?	以非貪婪模式匹配前一個字符，最少m次，最多n次，并以盡可能少的方式匹配
\	轉義字符，將\后面的字符進行轉義
[]	表示一組字符，字符可以單個列出，也可以給定范圍，如[abc]表示a或b或c，[a-z]表示26個小寫字母中的任意一個，[^a-z]匹配非小寫字母，[0-5][0-9]表示匹配00-59，特殊字符在[]也失去特殊意義，[(+ )]將匹配任何文字字符的'(',')','+',''
丨	A丨B 匹配A或者B
()	匹配括號內的正則，每個括號都是一個組，從左往右的括號，編號依次加一
\A	匹配字符串的開頭
\b	只用以匹配單詞的詞首和詞尾(退格符)
\B	只在當前位置不在單詞邊界時匹配。
\d	匹配任何Unicode的十進制數字，與[0-9]相同
D	匹配任何非十進制的字符，與[^0-9]相同
\s	匹配Unicode的空白字符，匹配ascii字符集中包含空格的字符，相當于[\t\n\r\f\v]
\S	匹配不是空白字符的字符，相當于[^\t\r\n\f\v]
\w	匹配字母數字下劃線，相當于[a-zA-Z0-9_]
\W	匹配非字母數字下劃線，相當于[^a-zA-Z0-9]
\Z	僅匹配字符串結尾
`(?P<name>)`	給分組加一個別名，`(?P<a>)`給分組取別名為a，每個組名只能在正則表達式中定義一次
(?P=name)	引用前面別名為name的分組匹配到的任何文本
(?<=)	前向界定，表示你要匹配的字符串前面是某個字符串的時候才匹配，('(?<=abc)def','abcdef')當def前面是abc的時候才匹配
(?=)	后向界定，表示你要匹配的字符串后面是某個字符串的時候才匹配，('abc(?=def)','abcdef')
(?<!)	非前向界定，表示你要匹配的字符串前面不是某個字符串的時候才匹配，('(?<=abc)def','abcdef')當def前面不是abc的時候才匹配
(?!)	非后向界定，表示你要匹配的字符串后面不是某個字符串的時候才匹配，('abc(?=def)','abcdef')
(?(id/name)yes-pattern	no-pattern)

正則表達式方法

re.compile(pattern,flags=0)
編譯一個正則表達式模式為正則表達式對象，其可用于使用他的匹配match(),search()以及其他方法
```
>>> comp=re.compile(r'\d+')
>>> ret=comp.match('123456')
>>> ret.group()
'123456'
```
相當于
```
ret=re.match(r'\d+','123456')
```
re.search(pattern,string,flags = 0)
查找正則表達式匹配到的第一個位置，并返回相應的匹配對象
re.match(pattern,string,flags = 0)
從字符串的開頭匹配，并返回相應的匹配對象
re.fullmatch(pattern,string,flags = 0)
將會對整個字符串進行匹配，并返回相應的匹配對象

re.split(pattern,string,maxsplit = 0,flags = 0)
按照正則匹配模式進行拆分字符串,maxsplit為最多拆分次數，并且字符串的其余部分將作為列表的最后一個元素返回，如果分隔符中有捕獲組并且它在字符串的開頭或者結尾匹配，則結果將以空字符串開頭。

>>> re.split(r'\W+','Words words wordS')
['Words', 'words', 'wordS']
>>> re.split(r'\W+','Words words wordS',1)
['Words', 'words wordS']
>>> re.split(r'\d+','1q2W3e4R',flags=re.IGNORECASE)
['', 'q', 'W', 'e', 'R']
>>> re.split(r'(\W+)', 'words, words...')
['words', ', ', 'words', '...', '']
>>> re.split(r'\W+', 'words, words...')
['words', 'words', '']

re.findall(pattern,string,flags=0)
從左往右匹配，返回一個列表，如果模式中存在一個或多個組，則返回組列表; 如果模式有多個組，這將是一個元組列表。結果中包含空匹配。
```
>>> re.findall(r'\d+','123,456')
['123', '456']
>>> re.findall(r'(\d+)(\w+)','123qw,werrc')
[('123', 'qw')]
>>> re.findall(r'(\d+)|(\w+)','123qw,werrc')
[('123', ''), ('', 'qw'), ('', 'werrc')]
```
re.finditer(pattern,string,flags = 0 )
返回一個匹配到每個結果的迭代器
```
>>> for i in re.finditer(r'\d+','123456'):
print(i.group())
123456
```
re.sub(pattern,repl,string,count = 0,flags = 0 )
將匹配到的字符串替換成repl的值，count表示要替換的模式最多替換次數，repl可以是一個字符串也可以是一個函數，當repl為字符串時，會處理其中的任何反斜杠，，可以使用\id或\g< id>、\g< name>引用分組
```
>>> re.sub(r'(\d+) (\w+)',r'\2 \1','12345 asdfd')
'asdfd 12345'
```
當repl是一個函數時，那么這個函數會只接受一個匹配對象參數。例如：

>>> def mat(m):
    if m.group(2)=='1234':
        return m.group(1)
    else:
        return '1234'

>>> re.sub(r'(\d+) (\d+)',mat,'123 1234qer')
'123qer'
>>> re.sub(r'(\d+) (\d+)',mat,'123 123qer')
'1234qer'

re.subn(pattern,repl,string,count = 0,flags = 0 )
與sub執行的操作相同，但是返回的是元組，元組最后一個元素為替換次數
```
>>> def mat(m):
if m.group(2)=='1234':
    return m.group(1)
else:
    return '1234'
>>> re.subn(r'(\d+) (\d+)',mat,'as123 1234qer')
('as123qer', 1)
```
正則表達式對象

使用re.compile可以編譯一個正則表達式對象
regex.search(string[,pos[endpos]])
查找正則表達式匹配到的第一個位置，并返回相應的匹配對象可選參數pos和endpos表示設置正則表達式匹配的字符串開始位置和結束位置
```
>>> pattern=re.compile(r'\d+')
>>> pattern.search('123456',2,5).group()                   
'345'
```
regex.match(string,posendpos)
如果字符串開頭的零個或多個字符與此正則表達式匹配，則返回相應的匹配對象。pos和endpos用法和regex.search()意思相同
編譯的正則表達式的方法和屬性與正則匹配的函數相同，這里不一一說明
編譯對象的常用參數
re.A(re.ASCII)
使\w,\W,\b,\B,\d,\D,\s和\S只匹配ASCII字符，而不匹配Unicode字符
re.I(re.IGNORECASE)
匹配時不區分大小寫
re.L(re.LOCALE)'
使\w \W \b \B \s \S \d \D和區分大小寫的匹配只取決于當前的環境設定
re.M(re.MULTILINE)
多行模式下，'^'和'$'由原來匹配字符串的開頭或者結尾變成匹配每行的開頭和結尾
re.S(re.DOTALL)
使'.'匹配包含換行符的任何字符

re.X(re.VERBOSE)
這個模式下正則表達式可以是多行，忽略空白字符，并可以加入注釋。以下兩個正則表達式是等價的

a = re.compile(r"""\d +  # the integral part
               \.    # the decimal point
               \d *  # some fractional digits""", re.X)
b = re.compile(r"\d+\.\d*")

match對象

match.group([ group1,... ] )
返回匹配的一個或多個子組，如果只有一個參數，則結果為單個字符串; 如果有多個參數，則結果是一個元組，每個參數有一個項目。如果沒有參數，group1默認為零（返回整個匹配）。如果groupN參數為零，則相應的返回值是整個匹配的字符串
```
>>> s=re.match(r'(\w+) (\w+)','hello world')
>>> s.group(0)
'hello world'
>>> s.group(1)
'hello'
>>> s.group(2)
'world'
>>> s.group(1,0)
('hello', 'hello world')
```
如果分組太多，我們可以對分組進行命名
```
>>> m=re.match(r"(?P<first>\w+) (?P<second>\w+)",'hello world')
>>> m.group('first')
'hello'
>>> m.group('second')
'world'
```
如果一個組匹配多次，那么最終將返回的最后一次匹配到的字符串
```
>>> m=re.match(r'(\d)+','123456')
>>> m.group()
'123456'
>>> m.group(1)
'6'
```
match. getitem(g)
與m.group(g)相同，這樣使用會更簡單
```
>>> m=re.match(r'(\d)+','123456')
>>> m[0]
'123456'
>>> m[1]
'6'
```
match.groups(default=None)
以元組的形式返回匹配到的所有子組，沒有被匹配到的分組，默認為None,當然可以設置默認參數
```
>>> m=re.match(r'(\d+),(\w+)?','1234,')
>>> m.groups()
('1234', None)
>>> m.groups('0')
('1234', '0')
```
match.groupdict(default=None)
以字典的形式返回匹配到的值，字典的鍵為分組名，值為匹配到的字符串，沒有匹配到的分組將設置為None
```
>>> m=re.match(r'(?P<first>\d+) (?P<second>\d+)','123 456')
>>> m.groupdict()
{'first': '123', 'second': '456'}
>>> m=re.match(r'(\d+) (\d+)','123 456')
>>> m.groupdict()
{}
```
match.start([group]) 和match.end([group])
分別返回由分組匹配到的字符串的開始和結束的索引，結束字符串的索引為最后一個子符的索引加一group默認為零，將會表示所有匹配到的字符串
```
>>> m=re.match(r'(\w+) (\w+) (\w+) (\w+)','my name is wanger')
>>> m.start(2)                 
3
>>> m.end(2)                   
7
>>> m.end()                
17
>>> m.start()                  
0
```
match.span[group]
返回一個二元組，元組的元素為分組匹配到的字符串開始的索引和結束的索引，group默認為0，表示匹配到的所有字符串
```
>>> m=re.match(r'(\w+) (\w+) (\w+) (\w+)','my name is wanger')
>>> m.span(2)                      
(3, 7)
>>> m.span()                   
(0, 17)
```

match.pos 和match.endpos
分別返回要匹配字符串的開始搜索的索引和結束搜索的索引

>>> m=re.match(r'(\w+) (\w+) ','my name is wanger')
>>> m.pos                  
0
>>> m.endpos                   
17

match.lastindex
最后匹配到的分組的索引

>>> m=re.match(r'(\w+) (\w+) ','my name is wanger')
>>> m.lastindex                
2
>>> m=re.match(r'(\w+) (\w+) (\w+)','my name is wanger')                       
>>> m.lastindex                    
3

match.lastgroup
最后匹配到的分組的名稱,沒有命名組則返回空

>>> m=re.match(r'(\w+) (?P<last>\w+) ','my name is wanger')                
>>> m.lastgroup                
'last'

幾個簡單的實例

匹配前面是數字123的字符

>>> re.search(r'(?<=123)\w+','123asd,wer').group(0) 'asd'

2.匹配前面是數字后面是下劃線的字符

>>> re.search(r'(?<=123)\w+(?=_)','123asd_123wer').group(0)                
'asd'

3.匹配手機號碼

>>> re.match(r'1[3,5,7,8]\d{9}|','13573528479').group()                
'13573528479'

4.匹配電話號碼

>>> re.match(r'\d{3}-\d{8}|\d{4}-\d{7}','0531-82866666').group()                   
'0531-8286666'

5.匹配IP地址

>>> re.match(r'\d+\.\d+\.\d+\.\d+','192.168.10.25').group()                    
'192.168.10.25'

6.匹配網易郵箱

>>> re.findall(r'\w+@163\.com|\w+@126\.com','wanger@163.com wanger@126.com')

['wanger@163.com', 'wanger@126.com']

7.匹配HTML文本

>>> re.match(r'<(\w*)><(\w*)>.*</\2></\1>','<body><h3>wahaha5354</h3></body>').group()
'<body><h3>wahaha5354</h3></body>'

歡迎各位關注本人微信公眾號“沒有故事的陳師傅”

python正則re模塊

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
php 隨機字母數字
下一篇新聞：
IEnumerable接口與IEnumerator接口

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女