095. 编写一个函数，实现简单的日志分析工具

编写一个简单的日志分析工具可以帮助快速提取日志中的关键信息，例如错误信息、特定事件的发生次数、日志的来源等。以下是一个基于 Python 的简单日志分析工具的实现，它包括以下功能：

读取日志文件：从指定的日志文件中读取内容。
统计错误信息：统计日志中出现的错误信息及其出现次数。
提取特定事件：根据关键字提取特定事件的日志条目。
按时间戳排序：将日志条目按时间戳排序。
生成报告：生成一个简单的分析报告，包含错误统计和特定事件的提取结果。

示例代码

import re
from collections import Counter

def read_log_file(file_path):
    """
    从指定路径读取日志文件
    :param file_path: 日志文件路径
    :return: 日志内容列表
    """
    try:
        with open(file_path, 'r', encoding='utf-8') as file:
            log_lines = file.readlines()
        return log_lines
    except FileNotFoundError:
        print(f"Error: File '{file_path}' not found.")
        return []
    except Exception as e:
        print(f"An error occurred while reading the log file: {e}")
        return []

def analyze_errors(log_lines):
    """
    统计日志中的错误信息
    :param log_lines: 日志内容列表
    :return: 错误信息及其出现次数
    """
    error_pattern = re.compile(r'\b(error|fail|exception)\b', re.IGNORECASE)
    errors = [line.strip() for line in log_lines if error_pattern.search(line)]
    error_counts = Counter(errors)
    return error_counts

def extract_events(log_lines, keyword):
    """
    提取包含特定关键字的日志条目
    :param log_lines: 日志内容列表
    :param keyword: 关键字
    :return: 包含关键字的日志条目列表
    """
    keyword_pattern = re.compile(re.escape(keyword), re.IGNORECASE)
    events = [line.strip() for line in log_lines if keyword_pattern.search(line)]
    return events

def sort_by_timestamp(log_lines):
    """
    按时间戳排序日志条目
    :param log_lines: 日志内容列表
    :return: 按时间戳排序的日志条目列表
    """
    timestamp_pattern = re.compile(r'\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}')
    log_lines.sort(key=lambda line: timestamp_pattern.search(line).group() if timestamp_pattern.search(line) else '')
    return log_lines

def generate_report(error_counts, events):
    """
    生成日志分析报告
    :param error_counts: 错误信息及其出现次数
    :param events: 特定事件的日志条目列表
    :return: 分析报告字符串
    """
    report = "Log Analysis Report\n"
    report += "---------------------\n"
    report += "\nError Statistics:\n"
    for error, count in error_counts.items():
        report += f"  {error}: {count} times\n"
    report += "\nExtracted Events:\n"
    for event in events:
        report += f"  {event}\n"
    return report

def analyze_log(file_path, keyword):
    """
    简单的日志分析工具
    :param file_path: 日志文件路径
    :param keyword: 要提取的特定事件关键字
    """
    log_lines = read_log_file(file_path)
    if not log_lines:
        print("No log data to analyze.")
        return

    log_lines = sort_by_timestamp(log_lines)
    error_counts = analyze_errors(log_lines)
    events = extract_events(log_lines, keyword)

    report = generate_report(error_counts, events)
    print(report)

# 示例用法
if __name__ == "__main__":
    log_file_path = input("Enter the path to the log file: ")
    keyword = input("Enter the keyword to extract events: ")
    analyze_log(log_file_path, keyword)

功能说明

读取日志文件：

使用 open 函数读取日志文件内容。
如果文件不存在或其他错误发生，会打印错误信息。

统计错误信息：

使用正则表达式匹配包含“error”、“fail”或“exception”等关键字的日志条目。
使用 collections.Counter 统计每种错误信息的出现次数。

提取特定事件：根据用户输入的关键字提取包含该关键字的日志条目。

按时间戳排序：假设日志条目包含标准的时间戳格式（如 YYYY-MM-DD HH:MM:SS），使用正则表达式提取时间戳并排序。

生成报告：将错误统计和特定事件的提取结果格式化为一个简单的报告字符串。

使用方法

将上述代码保存为一个 .py 文件。
准备一个日志文件，确保其内容格式符合常见日志格式（包含时间戳和错误信息等）。
运行脚本后，输入日志文件路径和要提取的事件关键字。

注意事项

日志格式需要相对统一，特别是时间戳格式，以便正确提取和排序。
如果日志文件非常大，可能需要优化内存使用或分批处理。
根据实际需求，可以进一步扩展工具的功能，例如支持多种日志格式、生成更详细的报告等。

视频讲解

BiliBili： 视睿网络-哔哩哔哩视频 (bilibili.com)