日志文件作为系统和网络用户行为的记录管理工具,对保护系统安全,方便调查系统故障,监控系统运行状况起着极其重要的作用。该文提出了一个基于关联规则的志分析系统,将数据挖掘技术运用在日志分析中,并针对挖掘的数据特点对算法进行了改进。日志分析系统可以利用关联规则对日志进行分析获取其中所萄6'-重要信息。关键词:日志分析;数据预处理;日志挖掘;关联规则;中图分类号:乃93文献标识码:0引用随着计算机系统的发展,计算机所进行的工作越来越复杂,为了保护系统的安全,方便调查系统故障,监控系统运行状况,查看系统日志已经成为一个重要的手段。管理员可以查看在某段时间内所发生的事件,也可以通过对各个日志文件进行分析获取知识。
热血传奇装备 由于日志具有数据量大,不易读懂的特点,如果仅凭借管理员查看日志记录的手段,其中所蕴含的有用信息也难以发现。将数据挖掘技术应用于日志分析是当前研究领域的一个研究热点,比如利用关联规则的相关算法找剑隐藏在日志记录中的相互关系等。目前用于日志挖掘的关联算法有算法,算法,算法等。本文改进了算法,提出了一个可以对各种日志进行数据挖掘提取日志中所蕴含的关联规则的日志分析系统。厂原翔吾◆统一格文往式的.1文件赝卜(临时詈文件文件)2日志的解析1日志分析系统的基本模块日志分析系统能够将不同格式的日志进行解析生成统一格式的日志文件,然后对日志数据进行预处理,最后通过改进的算法挖掘日志中所蕴含的关联规则。日志分析系统分为日志解析,日志预处理,日志挖掘,知识转化4个模块。日志解析模块将不同类型的日志文件进行解析,生成统一格式的文件;日志预处理模块对统一格式的日志文件中的数据进行提取,分解、合并转换为适合数据挖掘的数据格式;日志挖掘模块采用改进的算法进行数据挖掘;知识转化模块将数据挖掘得到的频繁项集,转化为相关的强关联规则。
管理员可以根据相关的强关联规则得到蕴含在日志中的知识,便于更好地控制相应的系统。该系统的运行过程图。
日志预处叫竺器匡亟卜堰图1系统运行过程由于取得的日志文件都是原始的日志,即文本文件的日志。这些不问来源的日志文件格式是不同,这就给日志挖掘带来了困难。要实现不同日志的挖掘必须首先要将不同格式的日志进行解析生成统一格式的日志文件。本系统在分析了操作系统日志,应用软件的标准日志,以及协议收集的网络设备日志的基础上,提出了一种日志解析配置文件的格式。
每一种日志文件,都应有一个符合该格式的配置文件,根据该配置文件可以对指定的日志文件进行解析,将此日志文件转换为一个统一格式的曰志文件。该配置文件各个参数的意义如表:表1配置文件各参数的意义参数意义缸如果该值为0表示一条记录为一行,否则表示一条记录为多行“志文件中每一行的最大字节数作者简介:李哲,西北-业大学计算机学院,硕研究生,陕西西安710072李先国,西北工业大学计算机学院,副教授.陕西西安710072?27?25,.3,2009开发应用微型电脑应用2009年第25卷第3期与起表示时间列在条志中的位置,该参数用来表示区分时间列的字符。根据指定的分隔符来得到时『日列,并且指定时间列的格式表示如何确定一条记录的开始用于表示划分不同的列,町以根据字符或肯根据位置索引划分根据所划分的列,提供对应的列标题,有儿个列就有几个列标题配置文件实例及各个参数的解释如表2:表2配置文件实例及解释配置文件实例解释=””:表明一条记录为多行2”12000”;网民喜欢这网络游戏一行最大12000个字节“”,.”‰表明用,作为分隔符,区分时间列的位置””,””,2”,%”,::","、,时间列所在的位置为一条记录的第行。
分隔符划分后的第1块,::”%:有2种时间格式=5,1,%;根据第5个位置上足古有字符确定一条记录=”4”,%”1?10”,”12一,”-:","-”%;志划分为4列。
每一列的起始终了位置2”4",%,,,"”%:指定每一列的列标题其中,对于”3”,%””,””,””%,3为后面%中参数的个数,%中的内容为各个参数,中间用,分隔,表明后面0%中有3个参数,分别为,。”、,”的意思为转义字符,”的意思为转义字符生成的统一格式的日志文件如下:[]”4”,%”","1哺,","”%[”200403”,”19:08:32”,”620!,6001”文件中分为[]和[]:记录着不同的列名:记录的是[]中的列所对应的数据信息(原始日志文件中的数据)。3数据的预处理在对日志文件进行挖掘时,首先要对日志文件数据进行预处理。因为日志文件记录的是系统在不同时间所发生的事件,所以对日志文件进行预处理后得到事务数据库,再对事物数据库进行数据挖掘。日志预处理包括数据清理,数据规约,数据集成21等。数据清理的任务是去除原始日志文件中的噪声数据和无关数据,处理遗漏数据和清洗脏数据,去除空白数据和白噪声。主网游要是对重复数据和缺省数据进行处理,即去除重复数据,填充缺省数据。数据规约主要是将不同的记录进行合并规约。有些属性需要进一步的变化出来,才使得数据挖掘符合我们的逻辑。?28?比如:在审计日志记录中,记录是以时间属性排列的,但是在某些情况下,并不需要知道确切的时间,而需知道大致的时问段,比如上午、下午、晚上这样的时间划分,这样可以根据需求做一定的数据变换作。
数据集成是将多个不同类型的日志信息合并,解决语义模糊性。不同的日志中有町能包含同样的一屿记录信息,所以为了消除蘑复性,简化日志信息,便丁.数据挖掘出真正有用的信息,要对不同的同志进行数据集成。比如:系统|志中的应用程序日志(应用程序错误记录)中所记录的某些应用程序的记录,在该应用程序自己的应用软件志中也有所记录,这就造成了重复的记录项,所以需要将重复项消除掉。4数据挖掘算法的实现数据挖掘模块巾要实现关联规则13的找寻,即找寻相应的频繁集。数据挖掘引擎,轻变无英雄,一般都使用关联规则巾的经典算法算法,但是在对日志进行挖掘得到频繁项时会产生以下问题:①产生不相关的关联规则。在日志审计的过程中有些日志属性会导致产生不相关的、无趣的关联规则。这些关联规则是没有意义的,甚至会产生误导作用。②产生候选集时,会多次扫描数据库,极大的影响系统的效率。并且会产生很多无关的候选集。可以利用本质属性约束避免不相关规则,改进算法减少候选集。4.1利用本质属性进行约束为了避免产生无关关联规则,必须使关联规则中包含本25,.3,2009开发应用微型屯脑应用2009年第25卷第3期质属性小。本质属性就是在审计数据中起到决定作用的属性,其他的属性只起到辅助性的作用。
定义设是所研究的属性的集合,是的一个子集,若完全函数依赖于,则称为本质属性集,其任一属性七∈称为为本质属性。可以将是否含有本质属性作为衡关联规则是否相关的标准,即。=正(,。,),式中,(若中含有本质属性)。0(若中没有本质属性)和分别为规则的支持度和置信度。含有本质属性的规则是相关规则,不含本质属性的规则为不相关规则。只有包含本质属性的规则才是需要的。4.2对算法进行改进对经典的算法进行分析,发现在从项频繁集厶产生2项候选集:时,候选集的数量为(-1)2会非常大。这样在给2中的每个元素计数时,事务集中每个事务中的每个二阶子集平均需要做1?(-1)4次比较,这是非常大的计算量,也是决定算法性能优劣的关键所在5。通常情况下,:.,而的数量却为+(-1)2,所以候选集:中非:占了绝大多数,由此看出从2产生:的方法效率较低。而算法在产生3时,可以得到,≤:,所以厶一2是一个成员数大幅度增加的过程,而:'3又是个数量下降的过程,而后面厶寸,..,一。时每~级成员的数量都有所下降。所以厶:是一个瓶颈,可以对此步进行改进,使得从厶直接产生出:而不需要候选集:。对算法进行改进,使得其在产生2项频繁集工:时,不需要候选集:,产生2的方法如下:对于初始项目集=,。=,而事务项集为胪。=哪,事务集合=“-1~,“是中的所有包含,的事务的集合,五是对应的事务数,即Ⅳ中事务的数量。最小支持度为,最小事务数.=.。度持支小最数总务事即如:若在中仅有事务。
,3,;中包含项目厶,则对应的“=一,3,),=3。
①重建事务数据库,对于初始项目集,搜索包含其中每个项目的事务,生成对应的事务集合,并得到事务数搜索包含,。的事务,生成%,得到事务数工。搜索包含,2的事务,生成甜2。得到事务数2。②生成新的数据库,包含在中去掉事务数,小于最小事务数?的项④计算”.”2,如果交集的数量小于最小事务数-1111111,则舍弃该交集,否则对应的项集11,2为频繁项集,即,2∈2中,将12存储。?29?同理计算“材3,,4,材2”3,”?材。④存储集稍加整理得到频繁2项目集2。该算法直接产生频繁2项集,不产生大量的候选项集,避免了2项候选集与数据库频繁比较所带来的效率低下的问题,而且还可以大大减少对于内存的需求,从另一个角度提高了运算速度。5知识转化在得到频繁项集和每个项目的支持度后,可以得到每个规则的置信度;置信度可以由以下公式得到:《)=(4)=竺等:三三篙根据得到的置信度与最小置信度相比较,取得其中的强关联规则。此时,强关联规则在经过本质属性的约束后,都是相关的。这些规则就是日志中所存在的不同操作之间的关联关系。
可以将管理员感兴趣的规则进行汇总,这有助于管理员获得系统中不同事件的相巨关系,进而更好的控制的系统运行。6结论本文介绍了一个根据关联规则进行数据挖掘的日志分析系统,提出了一个对不同日志进行解析的规则,并且对原有的关联规则算法算法进行了改进,可以很大程度上提高算法的效率。
日志分析系统还可以应用数据挖掘中的关联规则方法,序列模式分析方法,异常点分析技术等其他挖掘技术的结合,形成更加完整的工具。参考文献季根生.计算机系统日志自动分析的宾现.铁路计算机应用2007,16(3):48?50.陆丽娜,杨怡玲,管旭东.日志挖掘中的数据预处理的研究计算机:程,2000,26(4):66?67.3陈炼,孙全华,饶泓.基于改进算法的日志挖掘支撑工具的实现.南昌大学学报:工科版,2002,29(2):190-193,201.4文娟,薛永生,段江娇.基于关联规则的日志分析系统的设计与实现新开传奇.厦门大学学报:自然科学版,2003,(44):258.261.5何小伟.算法强项集产生的二维哈希算法.计算机与现代化,2003(4):一12,62,.咖.1998.10(2):209-221.(收稿日期:2008-09一15)基于关联规则的日志分析系统的研究与设计作者:李哲,李先国,-作者单位:西北工业大学计算机学院,陕西,西安,710072刊名:微型电脑应用英文刊名:年,卷(期):2009,25(3)被引用次数:2次参考文献(6条)1.文娟;薛永生;段江娇基于关联规则的日志分析系统的设计与实现[期刊论文]-厦门大学学报(自然科学版)2003(44)2.陈炼;孙金华;饶泓基于改进算法的日志挖掘支撑工具的实现[期刊论文]-南昌大学学报(工科版)2002(02)3.陆丽娜;杨怡玲;管旭东日志挖掘中的数据预处理的研究[期刊论文]-计算机工程2000(04)4.;;[外文期刊]1998(02)5.何小伟算法强项集产生的二维哈希算法[期刊论文]-计算机与现代化2003(04)6.季根生计算机系统日志自动分析的实现[期刊论文]-铁路计算机应用2007(03)引证文献(2条)1.黄云.唐世民.罗宇基于关联规则的站内搜索引擎设计[期刊论文]-软件导刊2010(1)2.胡光民.周亮.柯立新基于的网络日志分析系统研究[期刊论文]-电脑知识与技术2010(22)。