利用python分析access日志的方法

前言

waf上线之后，处理最多的是误报消除。

产生误报有多种原因，比如web应用源码编写时允许客户端提交过多的cookie；比如单个参数提交的数值太大。

把误报降低到了可接受的范围后，还要关注漏报。waf不是神，任何waf都可能被绕过。所以还需要定位漏过的攻击，明确漏报的原因，才能update waf的策略。

要定位漏报，就必须分析web应用的访问日志了。一个站点，每天产生的access日志大概接近1gb，显然靠肉眼看是不现实的。这就需要用python帮助自动分析。

实现思路

拿我司某web系统举例：

apache开启了access日志记录

日志规则是每小时生成一个日志文件，以站点名称为文件名，以日期+时间为后缀。例如：special.xxxxxx.com.cn.2016101001

要分析这些散碎的日志文件，我的思路如下：

1、根据用户命令行输入获取日志文件所在目录；

2、遍历目录下所有文件，合并到一个文件；

3、定义web攻击常见payload的字符串：

sqli的：select、union、+–+；

struts的：ognl、java

webshell常见的：base64、eval、excute

使用正则逐行匹配，将命中的日志复制到单独的文件。

实现代码

代码如下：

# -*-coding: utf-8 -*-
import os,re,sys
if len(sys.argv) != 2 :
print ‘usage : python logaudit.py ‘
sys.exit()
logpath = sys.argv[1]
#获取输入参数的文件路径’
merge = re.compile(r’.*(\d[10])’)
for root , dirs , files in os.walk(logpath):
for line in files:
#遍历日志文件夹，合并所有内容到一个文件
pipei = merge.match(line)
if pipei != none:
tmppath = root + ‘\\’ +line
logread1 = open(tmppath,’r’)
logread = logread1.read()
log2txt = open(‘.\\log.txt’,’a’)
log2txt.write(logread)
log2txt.close()
logread1.close()
else:
exit
log = open(‘.//log.txt’,’r’)
logread = log.readlines()
auditstring = re.compile(r’.*[^_][ss][ee][ll][ee][cc][tt][^.].*|.*[uu][nn][ii][oo][nn].*|.*[bb][aa][ss][ee][^.].*|.*[oo][gg][nn][ll].*|.*[ee][vv][aa][ll][(].*|.*[ee][xx][cc][uu][tt][ee].*’)
writelog = open(‘.//result.txt’,’a’)
for lines in logread:
auditresult = auditstring.match(lines)
if auditresult != none:
writelog.write(auditresult.group())
writelog.write(‘\n’)
else:
exit
writelog.close()
log.close()

发表评论 取消回复

发表评论取消回复