更友好的格式化数据提取方案

“

阅读本文大概需要 3 分钟。

”

在工作中，我们开发的系统会涉及到大量的日志。同时，我们还有另一套系统会对日志的内容进行监控，从而判断系统是否正常运作。

以 Nginx 的日志为例，这是一条访问日志：

162.158.167.131 - - [11/Aug/2020:06:47:30 +0800] "GET /tags/Tenacity HTTP/1.1" 301 194 "-" "Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://aspiegel.com/petalbot)"

这条日志包含了很多信息，包括：访问者的 IP 地址：162.158.167.131，访问发起的时间：11/Aug/2020:06:47:30 +0800，具体访问的路径：/tags/Tenacity，访问者的 User-Agent 等等。

一般情况下，我们可能需要编写正则表达式来提取这些信息，大家可以现在试一试，针对上面的日志，如果让你来写正则表达式，你会怎么写。

现在，我们有更好的选择，那就是 parse 这个第三方库。用它能够更加友好又方便地通过简单正则来提取复杂的内容。

我们可以使用pip安装它：

python3 -m pip install parse

安装完成以后，我们用一段简单的代码来进行测试：

>>> import parse
>>> log = '162.158.167.131 - - [11/Aug/2020:06:47:30 +0800] "GET /tags/Tenacity HTTP/1.1" 301 194 "-" "Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://aspiegel.com/petalbot)"'
>>> pattern = '{ip} - - [{dt:th}] "{method} {path} HTTP/1.1" {code:d} {length:d} "-" "{ua}"'
>>> result = parse.search(pattern, log)
>>> result['ip']
'162.158.167.131'
>>> result['ua']
'Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://aspiegel.com/petalbot)'
>>> print(result.named)
{'ip': '162.158.167.131', 'dt': datetime.datetime(2020, 8, 11, 6, 47, 30, tzinfo=<FixedTzOffset +0800 8:00:00>), 'method': 'GET', 'path': '/tags/Tenacity', 'code': 301, 'length': 194, 'ua': 'Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://aspiegel.com/petalbot)'}

运行效果如下图所示：

非常轻松地就把需要的字段全部以字典的形式提取了出来。并且日期、数字可以直接提取成对应的形式，免去了事后转换的麻烦。

只要我们自己系统的日志，按照统一的规范来写，那么也可以非常轻易地提取出来。例如我在爬虫多次爬取失败时，写出如下一条日志：

2020-08-11 13:21:41 [scrapy.extensions.logstats] INFO: [多次失败] https://xxx.com/aa/bb\n

那么我可以把提取的规则写为：

pattern = '[多次失败] {url}\n'

运行效果如下图所示：

关于 parse 的更多用法，请看它的 Readme^[1]。

参考资料

[1]

Readme: https://github.com/r1chardj0n3s/parse

【hibernate】错误：org.hibernate.HibernateException: identifier of an instance of com.agen.entity.Monthde...

所报错误： org.hibernate.HibernateException: identifier of an instance of com.agen.entity.Mon

freeswitch lua mysql_freeswitch 折腾了一个星期 lua 实现的 act 程序，抛砖引玉

---上次发帖说用 sip做一个呼叫系统，折腾得好痛苦，如果有意的坛友可以参考一下，节省点时间和表情。肯定可以运行。如果有其中的高手，请指教一下。代码比较精糙。。哈 dbh=freeswitch.Dbh("odbc://fwsql"); laststa

使用ajax实现异步刷新验证手机号码

使用ajax的作用就是不需要刷新整个界面就可以访问服务器拿到数据并实现局部的刷新前端界面 <%@ page language="java" contentType="text/html;

git 由https切换为ssh

服务器一般都采用公钥拉取代码，很少采用账号密码的方式记录几条关键命令 1.查看当前仓库url地址

容器技术（云迁移与灾备）

文章目录一、容器

org.hibernate.HibernateException: identifier of an instance of XXX was altered from X to X

看了网上很多关于这个问题的解决办法，还是不行，所以就自己总结下这个问题的解决办法。首先：出现这个问题不外乎两个原因：①实体类和配置文件类型不一致；②hibernate缓存的问题。而且出现这种问题大部分原因是在做批处理时报错

大数据技术之Hive第3章 Hive数据类型

3.1 基本数据类型 Hive数据类型 Java数据类型

后序遍历

假设二叉树上各结点的权值互不相同且都为正整数。给定二叉树的前序遍历和中序遍历，请你输出二叉树的后序遍历的第一个数字。输入格式第一行包含整数 NN，表示二叉树结点总数。第二行给出二叉树的前序遍历序列。第三行给出

卷积与卷积神经网络

文章目录卷积与卷积神经网络

Day03-作业（Axios&ElementUI）

作业1：根据需求完成如下页面数据列表展示需求：Vue挂载完成后,通过axios发送异步请求到服务端,获取学生列表数据,并通过Vue展示在页面上