Python3学习（三十九）：如何实时操作处理日志文件

最近，需要对日志文件进行实时数据处理。

一、简单的实时文件处理（单一文件）

假设我们要实时读取的日志的路径为： /data/mongodb/shard1/log/pg.csv

那么我们可以在python文件中使用shell脚本命令tail -F 进行实时读取并操作

代码如下：

import re
import codecs
import subprocess

def pg_data_to_elk():
    p = subprocess.Popen('tail -F /data/mongodb/shard1/log/pg.csv', shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE,)    #起一个进程，执行shell命令
    while True:
        line = p.stdout.readline()   #实时获取行
        if line:                     #如果行存在的话
            xxxxxxxxxxxx
            your operation

简单解释一下subprocess模块：

subprocess允许你生成新的进程，连接到它们的 input/output/error 管道，并获取它们的返回（状态）码。

subprocess.Popen介绍

该类用于在一个新的进程中执行一个子程序。

subprocess.Popen的构造函数

class subprocess.Popen(args, bufsize=-1, executable=None, stdin=None, stdout=None, stderr=None, 
    preexec_fn=None, close_fds=True, shell=False, cwd=None, env=None, universal_newlines=False,
    startup_info=None, creationflags=0, restore_signals=True, start_new_session=False, pass_fds=())

参数说明：

args： 要执行的shell命令，可以是字符串，也可以是命令各个参数组成的序列。当该参数的值是一个字符串时，该命令的解释过程是与平台相关的，因此通常建议将args参数作为一个序列传递。
stdin, stdout, stderr： 分别表示程序标准输入、输出、错误句柄。
shell： 该参数用于标识是否使用shell作为要执行的程序，如果shell值为True，则建议将args参数作为一个字符串传递而不要作为一个序列传递。

二、复杂的实时文件处理（不断产生新文件）

如果日志会在满足一定条件下产生新的日志文件，比如log1.csv已经到了20M，那么则会写入log2.csv，这样一天下来大概有1000多个文件，且不断产生新的，那么如何进行实时获取呢？

思路如下：

在实时监听（tail -F）中加入当前文件的大小判定，如果当前文件大小大于20M，那么跳出实时监听，获取新的日志文件。（如果有其他判定条件也是这个思路，只不过把当前文件大小的判定换成你所需要的判定）

代码如下：

import re
import os
import time
import codecs
import subprocess
from datetime import datetime

path = '/home/liao/python/csv'
time_now_day = datetime.now.strftime('%Y-%m-%d')

def get_file_size(new_file):
    fsize = os.path.getsize(new_file)
    fsize = fsize/float(1024*1024)
    return fsize

def get_the_new_file():
    files = os.listdir(path)
    files_list = list(filter(lambda x:x[-4:]=='.csv' and x[11:21]==time_now_day, files))
    files_list.sort(key=lambda fn:os.path.getmtime(path + '/' + fn) if not os.path.isdir(path + '/' + fn) else 0)
    new_file = os.path.join(path, files_list[-1])
    return new_file

def pg_data_to_elk():
    while True:
        new_file = get_the_new_file()
        p = subprocess.Popen('tail -F {0}'.format(new_file), shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE,)    #起一个进程，执行shell命令
        while True:
            line = p.stdout.readline()   #实时获取行
            if line:                     #如果行存在的话
                if get_file_size(new_file) > 20:    #如果大于20M，则跳出循环
                    break
                xxxxxxxxxxxx
                your operation
        time.sleep(3)

如何设置电脑锁屏时间_火爆抖音的时间轮盘锁屏壁纸电脑版详细教程

Centos7更改网卡名称Eth0

安装完Centos7系统，网卡命名跟之前发生了变化，例如！就是看着不爽也不会影响使用，只是个网卡名称而已。 eno16777736

自动驾驶路径规划概况

文章目录前言

用python对secureCRT 7进行批量密码加密

需要将一批系统导入到secureCRT 7中，如果不涉及用户密码的处理，处理过程是比较简单的，在scrt安装目录的sessions文件夹中，读取一个ini文件，以之为模板，将S:"HOstname"= 和 S:"Username"= 后的值，修改为要导入的系统即可。如果需要将

操作系统存储管理--虚拟内存地址和物理内存地址

物理内存，在应用中，自然是顾名思义，物理上，真实的插在板子上的内存是多大就是多大了。而在CPU中的概念，物理内存就是CPU的地址线可以直接进行寻址的内存空间大小。比如8086只有20根地址线，那么它的寻址空间就是1MB，我们就说8086能支持1MB的物理内存，及时我们安装了128M的内存条在

大文件重复行

假如有一个文件很大，比如1T，现在需要找出内容重复的行。如果用java代码来实现，用缓存肯定是不行的，一般的服务器没有这么多内存。那么如何去做呢？可以利用数据库来处理，方法如下。创建一个表，有两列，一个是id主键，表示行号，一列是内容content。-- Create t

postgresql 的to_timestamp函数

PostgreSQL 的 to_timestamp 函数可以将字符串或整数转换为时间戳。它接受两个参数，第一个参数是要转换的值，第二个参数是该值的格式。例如，to_timestam

01 MongoDB入门基本操作

安装下载二进制文件安装将MongoDB的bin目录添加到path环境变量中在MongoDB安装目录下新建db目录这个文件夹保存所有的数据库的信息在

python答题游戏_5.完善动画及题目存储

1. 添加其他三个的球类底部选择动画→ 从动画库添加 → 分别选择排球、足球、网球 → 依次选择更改动画名为造型1、造型2、造型3、造型4

php里echo 0,php中有了echo为什么还要使用print呢？

php的语法中，echo和print都是输出一段内容到页面上的方法，不过两者还是有区别的，具体的方面有以下几点： (1)echo支持逗号语法，print不支持这种逗号语法； (2)echo的返回值是void，print的返回值是int