Python-初识正则表达式-指定匹配简单的日志数据

本章来小讲一下正则表达式的运用。

测试数据

测试数据是本公司的部分日志信息，截了一小段出来。用于练习正则。

[18:51:02]+CONNECTION TIME OUT
[18:51:11]+DISCONNECT
[18:51:13]+CONNECTED>>0x11899AAC51E3
[18:51:14]
[18:51:15]# 
[18:51:21]# log 4
[18:51:21]4
[18:51:22]# 
[18:51:22]------info(11.001)------
[18:51:22]<charge>
[18:51:22]vol    : 676 mv
[18:51:22]cur    : 1 ma
[18:51:22]status : null
[18:51:22]chgen  : 0
[18:51:22]pwout  : 1
[18:51:22]<warn>

万能匹配公式(.*?)

我愿称之为傻瓜式匹配，一起来看看，为什么这么说

如上数据，我需要匹配出CONNECTED>>0x11899AAC51E3中的"0x"

import re

datas = """
[18:51:02]+CONNECTION TIME OUT
[18:51:11]+DISCONNECT
[18:51:13]+CONNECTED>>0x11899AAC51E3
"""
values = re.findall(">>(.*?)1",datas)
print(values)  # ['0x']

至于为什么使用findall无需疑惑，后面都会讲到。这里的意思就是在全部数据中匹配出介于">>"与"1"之间的数据，也就是0x。

那么我想匹配其他数据呢，例如"cur"

import re

datas = """
[18:51:22]<charge>
[18:51:22]vol    : 676 mv
[18:51:22]cur    : 1 ma
[18:51:22]status : null
"""
values = re.findall("](.*?): 1",datas)
print(values)  # ['cur    ']

这也就是，为什么称之为傻瓜式匹配了，你需要什么数据，原封不动的讲所需的数据前后的字符都抄上来即可，当然记得将(.*?)带上。

缺点也很明显，不够灵活，不够方便，如上数据匹配出来就会带有很多空格。

精准匹配

接上面的例子。

import re

datas = """
[18:51:22]<charge>
[18:51:22]vol    : 676 mv
[18:51:22]cur    : 1 ma
[18:51:22]status : null
"""
values = re.findall("](c\w*)\s",datas)
print(values)

这里用到了\s与\w，\s是匹配空白字符。\w是匹配单词字符。在这里的作用是匹配0个或多个。\w也就是匹配0个或者多个单词字符。

所以此处的意思是，从"]"匹配以c开头的0个或多个单词字符一直到空白字符结束。也久成功的匹配出了cur

匹配时间戳

上述例子中，需要将所有的时间戳匹配出来，怎么操作？照样可以(.*?)

import re

datas = """
[18:51:22]<charge>
[18:51:22]vol    : 676 mv
[18:51:22]cur    : 1 ma
[18:51:22]status : null
"""
values = re.findall("\[(.*?)\]",datas)
print(values)
# ['18:51:22', '18:51:22', '18:51:22', '18:51:22']

稍微有点不同的是，这里需要转义一下"[]"，不然无法正常匹配到。