Python 로그 분석
5677 단어 nignx 로그 분석Python
import random
import datetime
import time
from queue import Queue
import threading
import re
from pathlib import Path
from user_agents import parse
"""
, , handler( )
, , code
, ,data = src.get(), , , ,
"""
pattern = '''(?P[\d.]{7,}\s-\s-\s\[(?P[^\[\]]+)\])\s\
"(?P.*)\s(?P.*)\s(?P.*)"\s(?P\d{3})\s(?P\d+)\s"[^"]+"\s"(?P[^"]+)"'''
#
regex = re.compile(pattern)
#
ops = {
'datetime': lambda datestr: datetime.datetime.strptime(datestr, '%d/%b/%Y:%H:%M:%S %z'),
'status': int,
'size': int,
'useragent': lambda ua: parse(ua)
}
#
def extract(line: str) -> dict:
matcher = regex.match(line)
if matcher:
return {name: ops.get(name, lambda x: x)(data) for name, data in matcher.groupdict().items()}
#
def openfile(path: str):
""" """
with open(path) as f:
for line in f:
fields = extract(line)
if fields:
yield fields
else:
continue
# ,
def load(*paths):
for item in paths:
p = Path(item)
if not p.exists():
continue
if p.is_dir():
for file in p.iterdir():
if file.is_file():
yield from openfile(str(file))
elif p.is_file():
yield from openfile(str(p))
# 100
def source(second=1):
""" """
while True:
yield {
'datetime': datetime.datetime.now(datetime.timezone(datetime.timedelta(hours=8))),
'value': random.randint(1, 100)
}
time.sleep(second)
#
def window(src: Queue, handler, width: int, interval: int):
'''
,
:param src: , ,
:param handler:
:param width: ,
:param interval: ,
'''
start = datetime.datetime.strptime('20170101 000000 +0800', '%Y%m%d %H%M%S %z')
current = datetime.datetime.strptime('20170101 010000 +0800', '%Y%m%d %H%M%S %z')
buffer = []
delta = datetime.timedelta(seconds=width - interval)
while True:
#
data = src.get() # , ,
if data:
buffer.append(data)
current = data['datetime'] #
# interval buffer
if (current - start).total_seconds() >= interval:
ret = handler(buffer)
start = current
# width
buffer = [x for x in buffer if x['datetime'] > current - delta]
#
source()
def handler(iterable):
#return sum(map(lambda x: x['value'], iterable)) / len(iterable)
print(sum(map(lambda x:x['value'],iterable))/len(iterable))
#
def donothing_handler(iterable):
#return iterable
print(iterable)
#
def status_handler(iterable):
#
status = {}
for item in iterable:
key = item['status']
status[key] = status.get(key, 0) + 1
total = len(iterable)
print({k:float( "{:.2f}".format(status[k] / total)) for k, v in status.items()})
return {k: status[k] / total for k, v in status.items()}
#
allbrowsers = {}
def browser_handler(iterable):
browsers = {}
for item in iterable:
ua = item['useragent']
key = (ua.browser.family, ua.browser.version_string)
browsers[key] = browsers.get(key, 0) + 1
allbrowsers[key] = allbrowsers.get(key, 0) + 1
print(sorted(allbrowsers.items(), key=lambda x: x[1], reverse=True)[:10])
return browsers
#
def dispatcher(src):
# handler,
handlers = []
queues = []
def reg(handler, width: int, interval: int):
"""
:param handler:
:param width:
:param interval:
"""
q = Queue()
queues.append(q)
# ,
h = threading.Thread(target=window, args=(q, handler, width, interval))
handlers.append(h)
def run():
#
for t in handlers:
t.start()
#
for item in src:
for q in queues:
q.put(item)
# print(q.get())
return reg, run
if __name__ == "__main__":
import sys
path = '/tmp/test.log'
"""
, 5s 10s
reg, run = dispatcher(source())
reg(handler, 10, 5)
"""
reg, run = dispatcher(load(path))
# 5s 10s ,
reg(donothing_handler, 10, 5)
# 5s 10s
reg(status_handler, 10, 5)
# 5s 10s , 10s
reg(browser_handler,10,5)
run()
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Python SMTP에서 전자 메일을 보내는 예SMTP(Simple Mail Transfer Protocol)는 전자 메일 서버 간에 전자 메일과 라우팅 전자 메일을 처리하는 프로토콜입니다.Python은 SMTP 또는 ESMTP 탐지기 데몬이 있는 모든 인터넷 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.