联机kdd模型需要解决哪些主要优化问题的数学模型

当前位置: >>
烟气轮机机械故障信号分析及数据处理技术的研究
北京机械工业学院 硕士学位论文 烟气轮机机械故障信号分析及数据处理技术的研究 姓名:张兴国 申请学位级别:硕士 专业:机械电子工程 指导教师:高锦宏
摘要摘要随着现代工业生产设备大型化、连续化、高速化和自动化的不断发展,机械设备的故障诊断技术越来越受到重视。保证生产的连续性,减少设备特 别是重要设备的停机时间,是保证企业追求高经济效益的前提,而设备状态监测与故障诊断技术将为此提供一个有效的解决途径。烟气轮机(简称烟机)是石油化工行业常见的关键设备之一,它利用催化 裂化装置生产过程中产生的高温再生烟气余热驱动离心式或轴流式空气压缩 机做功或给发电机提供动能,它的运行情况直接关系到装置的运行周期和能耗水平.对保证装置正常平稳运行和节能降耗具有重要意义。嘲在石化企业的 生产过程中烟气机组运行状态实时数据采集系统存储了大量的数据,这些数据的背后隐藏了大量的知识,但没有被深刻理解和有效的利用。而数据挖掘 技术正是研究如何从大量的数据中智能的、自动的提取出有价值的知识和信息,是当前相当活跃的研究领域。课题中在对旋转机械故障诊断技术、J2EE技术、数据库技术以及数据挖 掘技术研究的基础上有效的将它们应用于烟机机械故障诊断的实际应用中来。同时以旋转机械故障诊断技术理论为诊断的理论基础,以J2EE技术下的 Struts架构为主要框架,并以目前在相关技术领域中应用最为稳定,查询效率最高的Oracle9I为数据库管理平台开发了一套针对石化企业烟机实时运 行状态海量数据的管理系统,在系统中以数据挖掘技术中的决策树方法为数 据挖掘方法理论有效的实现了故障判树以及判定规则的生成,从而为进一步 的故障诊断提供了有效的诊断判据。最后通过对燕山石化生产现场3催一号站烟机数据的应用以及对故障实例的挖掘和诊断,证明课题研究的方法是可 行的。该方法可以用于石化企业的烟气机组的性能分析、状态监测以及故障诊断等方面,为机组开展状态检修提供技术支持,很有意义。 关键词:故障诊断,数据挖掘,决策树,烟机 ABSTRACTWi血the modem industrial equipmentdevelopingtowardsenlargement,toconsecution,super speed and automatization,more and more people pay attentionthe failure diagnosis technology of mechanical equipment.Keeping the continuous production and reducing the time of equipment,especially important equipment,is the base of enterprise's high economic benefit.And technology of computerized automatic continuous monitoring and diagnosis providesavalid solution.Fume Turbine field,which supplysisoneof the key equippment of Petrochemical Industrial for generator by waste heat for high-tgmpture relumepowerproductcd during the production of thedevices of catalysis and crackingdriving thecen缸血georoaxis-flow compressor.Fume Turbine has affected working period anduesed power directly,it has important meanings for keeping the deVic髑wdl done and saving the power. On the base of study ofs丽flmg machinetofaultdiagnosis、J2EE、DatabaseandDataMining,we make effective璐e of themfault diagnosis of fume turbine;At the鼬neJ2EEtime,WO make the theory of swirl-fault diagnosis蹈theory base,the Struts ofasmain frame,the most stable Oracle9I勰database which widely used in relatedwe developtechnology rid&.Andmanagement system of fume turbine’S workingdata for Petrochemical Industrial Corporation,in this system,WO adopt decision tree of data-miningSOthat it is very helpful to make faultjudgementand judgement rulesto toandflLrthor supply effectiveevidenceof faultjudgement.Thediagnosisthe examples of be practical.Thisfailure 1 NO.Fume Turbine of yanshan chemical facotay proved it 丑eⅣmethodcanbe used t0 analyze the character of Fume Turbine of the enterprise ofchemical technology,supervise thecondition,diagnosethefailure and maintain theequipment,it is really useful in the maintain of the equipment and the technical support 协讥 Key words:faultdiagnosis,Data Mining,decisiontree,Fume Turbine 学位论文版权使用授权书本人完全了解北京机械工业学院关于收集、保存、使用学位论文 的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和 电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向 国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目 的的前提下,学校可以适当复制论文的部分或全部内容用于学术活一I动。学位论文作者签名:多饥岩f自2∞8,年厂月,/臼经指导教师同意,本学位论文属于保密,在 本授权书。 指导教师签名: 年 月日年解密后适用学位论文作者签名: 年月 日 硕士学位论文原创-陛声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、己公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。签名.颧.鬈国2莎。蹲{黔fEl 第1章绪论第1章绪论1.1本课题研究的意义随着现代化大生产的发展和科学技术的进步,现代机电设备的结构越来越复 杂,功能越来越完善,自动化程度也越高。但是,从另外一方面看,维护、修理 费用也在相应的上升。由于许许多多无法避免的因素的影响,会导致设备出现各 种故障,以致降低或失去其预定的功能,甚至造成严重的甚至是灾难性的事故。 国内外曾经发生过空难、海难、爆炸、断裂、倒塌、泄漏等事故,这些事故造成 了巨大的经济损失蛆及人员伤亡,产生了严重的社会影响。例如,1985年我国大 同电厂和1988年秦岭电厂发生的汽轮发电机组的严重断轴毁机事件,对国家造 成了巨大的经济损失和人员伤亡。国外的类似事件也是报道频频,例如1979年 美国三里岛核电站泄漏事件、1986年美国“挑战者一号航大飞机失事、1986年 前苏联的切尔诺贝利核电站爆炸事件、1989年英国波音飞机发动机着火坠落事件 等等。因此通过对机电系统进行状态监测并采取相应的维护措施来保证设备的安 全运行,消除事故是十分迫切,同时也是非常有实际意义的工作。 课题来源于国家自然科学基金会资助的“大型旋转机电系统非平稳状态的故 障趋势智能预示技术研究一项目中的一部分,本课题在对故障诊断理论方法研究 的基础上,针对数据库和数据仓库技术在其它领域的广泛应用,将数据挖掘技术 应用在烟气轮机故障诊断上,根据数据挖掘的基本理论完成挖掘算法,最后得到 一系列隐藏在海量数据背后的有价值的故障规律。.1.2旋转机械状态监测与故障诊断技术的发展历程旋转机械在工业上的应用非常广泛许多旋转机械,如:电动机、发动机、发电 机、压缩机、汽轮机、轧钢机等,还是石化、电力、冶金、煤炭、核能等行业中 的关键设备。本世纪以来,随着机械工业的迅速发展,现代机械工程中的机械设 备朝着轻型化、大型化、重载化和高度自动化等方向发展的同时,也带来了大量 的强度、振动、噪声、可靠性,以及材料与工艺等问题,设备损坏事件时有发生。一大型旋转机械状态监测与故障诊断技术研究是国家重点攻关项目,目的是提 高大型旋转机械的产品质量,减少突发性事故,避免重大经济损失。50年代,各 第l章绪论种类型和性能的传感器和测振仪相继研制成功,并开始应用于科学研究和工程实 际。60年代,数字电路、电子计算机技术的发展、“数字信号处理技术’’的形成, 推动了振动检测技术在机械设备上的应用。70年代至80年代,随着电子算机技 术、现代测试技术、信号处理技术、信号识别技术等现代科学技术的发展,机械设备的检测与故障诊断研究跨入系统化的阶段,并把实验室的研究成果逐步推广到核能设备、动力设备以及其它各种大型的成套机械设备中去,进入了蓬勃发展 的阶段。例如:美国西屋公司的可移动诊断中心,丹麦B&K公司的2500型振动监 测系统等,都具各了机组信号数据的采集、分析、计算、显示、打印、绘图等功 能,并配有专项诊断软件。由于振动、噪声是快速的随机性信号,不仅对测试系 统要求高,而且在分析中要进行大量的数据处理,国内外在80年代用小型计算 机或专用数字信号处理机作为主机完成机械动态特性的数据处理,该类主机不仅 价格昂贵而且对工作环境要求苛刻,因而通常采用离线监测与分析的方式日。90 年代以来,高档微机不断更新且价格迅速下降,适合数字信号处理的 计算方法不断优化,特别是微型数字信号处理器DSP的出现和发展,使数据 处理速度大为提高,为在工业现场直接应用状态监测和故障诊断技术创造了条 件。丹麦、美国、德国等发达国家的专家学者对旋转机械工作状态监测技术进行 了深入研究,研制出不同系统。该类系统以丹麦B&K公司的2520型振动监测系 统、美国BENTLY公司的3300系列振动监测系统为代表已经达到较高的水平。 美国IRD公司的iQ2000系统可认为是至今为止有报道的功能最齐全的监测与诊断系统。1.3我国旋转机械状态监测与故障诊断技术的现状我国在工业部门中开展状态监测与故障诊断技术研究的工作起步于1986年, 在此之前从国外引进的大型机组,一般都购置了监测系统。而在自行研制的国产 设备上,若选用国外的监测系统,由于价格异常昂贵而难以接受。80年代中后期 以来,我国有关研究院所、高等院校和企业开始自行或合作研究旋转机械状态监 测技术,无论在理论研究、测试技术和仪器研制方面,都取得了许多可喜的成就, 并开发出相应的旋转机械状态监测系统。如:哈尔滨工业大学等单位联合研制的 斟机组振动微机监测和故障诊断系统一,西安交通大学研制的“大型旋转机械计 算机状态监测与故障诊断系统一,东北大学研制的“轧钢机工作状态监测系统斗2 第1章绪论等。不过在智能诊断仪器、传感器、信号的采集与分析仪器等方面与发达国 家相比还有一定的差距。 近30年来,设备故障诊断技术不断吸取现代科学技术发展的新成果,从理 论到实际应用都有迅速的发展,至今已发展成为集数学、物理、力学、化学、电 子技术、计算机技术、信息处理、人工智能等各种现代科学技术于一体的新兴交 叉学科。因此,作为设备故障诊断技术的一个分支一旋转机械状态监测与故障诊 断技术,其研究领域也同样主要集中在以下几个研究内容和研究方向:故障信息 检测,故障特征分析,状态监测方法,故障机理研究,故障识别及其专家系统。 其研究领域的进一步划分如图1.1所示。围1.1旋转机械状态监测与故障诊断技术研究领域1.3.1故障信息获取 在旋转机械故障诊断领域中,故障信息获取是指对旋转机械本身的工作参 数、性能指标、相关物理量等信息的信号进行检测和量化的技术,它涉及到传 感器、数据预处理、A/D转换、采集工作站等硬件设备。 近年来传感器技术随着半导体技术进入超大规模集成化阶段而得到了快速 的发展,特别是当前数字技术、光纤技术的兴起,为传感器向数字式、光纤式发3 第1章绪论展提供了广阔的前景;在数据预处理方面,多通道高速并行工作、实时数据处理是 它的一个重要发展方向;在计算机硬件平台技术方面,功能强大的工作站、服务器 和网络将综合在一起形成网络系统,许多先进的计算机硬件技术、网络技术得到 广泛应用,如多媒体技术、嵌入式技术以及分布式网络技术、现场总线技术等。 各种先进技术的发展为旋转机械故障信息的准确获取提供了必要的技术条件。 1.3.2状态监测方法 状态监测主要是对旋转机械运行状态作实时监测和趋势分析,目前旋转机械 状态监测的方法按监测时间可以分为连续监测、巡回监测和定期监测:按监测模式 可分为单机监测、分布式监测和远程监测。随着计算机技术、网络技术的发展, 分布式实时监测诊断系统现在己为各大企业广泛采用。它由分布在现场的下位机 进行数据采集,通过网络将数据传送到监诊中心的上位机,对数据进行统一的存 储、分析和处理,形成统一监诊网络,具有数据采集的独立性,分析监控的统一 性以及结构的开放性等特点,能及时准确地诊断旋转机械故障。这也是当今旋转 机械故障诊断研究和发展的主要方向。例如,浙江大学开发的“大型旋转机械监 测与诊断系统一采用的就是分布式体系结构。 1.3.3故障特征分析 故障特征分析是故障诊断的核心,它通过对原始信号的分析、处理后提取故 障特征信息,为模式识别和故障诊断服务。在旋转机械方面,旋转机械故障特征 信息的提取,是当前旋转机械故障诊断研究中的瓶颈,它直接关系到旋转机械故 障诊断的准确性和旋转机械故障早期预报的可靠性.为了从根本上解决旋转机械 故障特征信息提取这个关键问题,人们主要是借助信号处理的方法来进行信号处 理以提取旋转机械信号故障特征。 目前信号处理采用的分析方法主要是以傅立叶变换(FFr)为核心的传统信号 处理分析方法。它包括频谱分析、相关分析、相干分析、传递函数分析、细化谱 分析、时间序列分析、倒频谱分析、包络分析等方法。这些分析方法是基于信号 为稳态和线性的假设基础上的。在一般情况下,这些方法能基本满足工程实践的 要求,在旋转机械故障诊断中取得了较好的效果。但实际当旋转机械故障发生时 的振动信号,大量是非平稳、非高斯分布和非线性韵随机信号,使上述的这些分 析方法遇到了难以克服的困难,也严重影响了故障诊断的准确性。因此用于研究4 第1章绪论和分析非线性、非因果、非最小相位系统,非高斯、非平稳、非整数维(分形信号) 和非白色的加性噪声的现代信号特征提取技术,实现旋转机械故障的准确诊断是 目前研究和发展的重要方向。日前主要有现代谱分析、时频分析理论(Winger-Vi1 1c分布(w VD),短时傅氏变换(STF曰、小波变换(Wr)和基于EMD的时频分析方法等)、高阶统计量分析以及将混沌与分形动力系统理论中的新方法引入旋转机械 故障诊断领域,研究基于非线性信号处理理论的特征提取方法等。 1.3.4故障机理研究 故障机理研究的目的是为了掌握故障形成和发展过程,了解设备故障内在本 质及其特征,建立合理的故障模式。其研究方法是依赖于振动学、摩擦学、空气 动力学、材料失效等相关的基础学科和理论,建立相应的物理或数学模型,进 行计算机仿真计算和实验研究,它是设备状态监测与故障诊断的基础。 在旋转机械方面,为了故障诊断工作的顺利开展,国内外很多科研人员和科 研部门在旋转机械的故障机理研究方面作了大量的研究工作。例如,具有多年工 厂实践经验的美国人John Sohre是研究涡轮机械故障机理的权威,他于1968年 发表的论文“高速涡轮机械运行问题的起因和治理”,清晰简洁地描述了典型的 机械故障征兆及其可能成困,该项研究成果已被广泛应用于高速旋转机械故障诊 断中.美国BenflyNevada公司的转子动力学研究所对转子和轴承系统典型故障 作了大量的试验研究,并发表了许多很有价值的论文网。日本的故障诊断专家白 木万博自20世纪60年代以来发表了大量有关旋转机械故障诊断方面的文章,积 累了丰富的现场故障处理经验,并进行了理论分析。国内20世纪80年代中期以 来,各科研院校、研究所等单位,在旋转机械故障机理的研究方面做了大量的 工作,发表了许多有价值的文章。1.4旋转机械状态监测与故障诊断技术的发展趋势从近年来发表的文章和著作来看,本领域的发展趋势有: 1.4.1向小型化、便携式、多功能发展 随着微电子技术的发展,处理器的速度在不断的提高,存储器的容量在不断 的增大,面体积和功耗却在不断的减小。这为设备的小型化奠定了基础,小型的 诊断仪器携带方便,功能强大,更能适合行业的需求。 第1章绪论1.4.2基于新理论的新方法研究 由于机械转动过程中产生的信息的复杂性和多样性,机械故障诊断理论与技 术涉及到许多传统学科,如热力学、光学、声学、化学、数理统计等。另外也会 涉及到许多现代科学及其分枝,如计算机及软件、信号分析与处理、信息论、控 制论、图论、模糊数学、人工智能等。近年来,各国学者对于机械诊断技术密切 相关的其他领域中的新成果保持了高度的敏感,先后引进了大量的理论与方法来 丰富机械故障诊断科学。特别是对于非平稳信号和微弱特征信号处理所表现出的 独特优点,小波变换理论与方法己日益引起国内外学者的研究兴趣。可以预见。 在今后的一段时间里,还会有一些新的相关的学科中的理论和方法会被引用到机 械故障诊断中来。 1.4.3专家系统的研究与开发 设备故障诊断专家系统的出现是设备故障诊断领域最显著的成就之一.因为 一般情况下,人们关于设备故障诊断与维修的科学知识往往落后与专家的实践和 经验知识,从而为专家系统提供了广阔的应用前景。自1981年第一个非医疗专 家系DART在斯坦福大学问世以来,各类诊断与维护专家系统如雨后春笋般的出现。至今,专家系统已经度过了其在研究所的“孵化期一,逐渐在工程中得到了 较为广泛的应用。然而,阻碍故障诊断专家系统进一步发展的困难还有很多,这 引起了众多学者的深入研究。 1.4.4人工神经网络的研究 近年来,设备故障诊断的人工神经网络的研究一直非常活跃。尽管人们已经 获得了一些较为成熟的诊断理论和技术,且已经在工程中得以广泛的应用。然而,, 这些理论与技术对工程实际中大量存在的多故障、多过程、突发性故障以及在大 规模工程系统进行监测诊断方面表现出了一定的局限性,从而使机械故障诊断陷 入了某些困难。由于神经两络在处理上述问题时具有独特的优势,即对于多故障、 多过程的大规模系统,可以应用大规模并行处理网络进行诊断,对于突发性故障 或其它异常现象,可以利用神经网络的联想、推测及记忆功能进行诊断,从而使 故障诊断走出当前的困境成为可能。 1.4.5网络化6 第1章绪论随着计算机网络化的飞速发展,人们共享资源和远程交换数据成为可能。利 用光纤、微波、无线通信及计算机网络等通信方式,将机械故障诊断系统与数字 信号系统结合起来组成网络,从而实现对多台机组的有效管理,减少监测设备的投资,提高系统的利用率。1.4.6其它发展趋势 随着知识经济的到来,世界经济的全球化和一体化,人类对环境的要求越来 越高。这对机械设备的状态监测和故障诊断技术的要求也越来越高,不仅要满足 实现诊断性能的要求,还要满足有利于保护环境、节约能源、使用简单、性能可靠。总之,在故障诊断这一学科中,有许多方面值得深入的探讨和研究,随着我 国国民经济和科学技术的不断发展与进步,目前所遇到的困难将有可能得到克 服,我国的设备状态监测和故障诊断技术将会不断的得到完善。1.5数据库及数据挖掘技术概述随着数据库技术和数据库管理系统的广泛应用,全球范围内数据库中存储的 数据量急剧增大。有些公司经过长年累月积聚下来的商业数据超过几百万条记 录,有些面向科学研究数据库的数据量也非常惊人。数据库系统提供了对这些数 据的管理和简单的处理功能,人们可以在这些数据之上进行专业分析和科学研 究,但如此庞大的数据对人工处理来说是非常困难的,人们需要能够对数据进行 较高层次处理的技术,从中找出规律和模式,以帮助人们更好地利用数据进行决 策和研究。由于数据的繁杂,在由人工对数据进行处理过程中,很难找出关于数 据的较为全面的信息。这样许多有用的信息仍然隐含在数据中而不能被发现和利 用,造成资源的浪费。机器学习通过对数据对象之间关系的分析可以提取出隐含 在数据中的模式,即知识。正是由于实际工作的需要以及相关技术的发展,将机 器学习应用于大型数据库的数据库中的知识发现(Knowledge Database--KDD)技术逐渐发展起来。 在我国,许多单位也已开始此项技术研究,这些单位包括清华大学、中科院 计算技术研究所、空军第三研究所、海军装备论证中心等。北京系统工程研究所 对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据 立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科Discovery in7 第1章绪论院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造:南京大 学、四川大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及 Web数据挖掘。这些研究只集中在理论上和商业金融领域。西安交通大学的高毅 龙博士、西北工大的杨文献博士后将数据挖掘中的一些方法引入故障诊断领域, 然而只是找出机械设备运行状况的一些规律,并没有对机械具体故障的识别工作 做深入的研究。我们尝试把数据挖掘的几种方法介绍到故障诊断学科中来,找出 典型故障数据中潜在的知识,完成典型故障的识别问题,以推动故障诊断技术不 断的向前发展。本文主要研究了基于产生规则的数据挖掘方法,并建造了与之相 关的故障诊断系统。1.6本文的主要工作我们在对旋转机械故障诊断的理论机理与诊断方法研究的同时尝试性的把 己经成熟的数据挖掘理论方法引入到故障诊断学科中来,希望能借此引发对这项 研究的讨论,不断把新的研究方法应用于故障诊断工作中来。本文完成以下工作:1.在机械故障诊断领域引入基于规则推导的数据挖掘研究方法,提出并建 立与其相应的故障诊断系统。 2.选择ORACLE9I作为存储设备状态信号的数据库管理平台,建造用于存储设备状态数据的数据库。3.在WINDOWSXP开发平台上,使用MyEclipse4.0开发工具基于J2EE的 STRUTS架构采用面向对象的程序设计思想和模块化程序设计方法,针对实验室 现有的燕山石化烟气机组海量的数据开发一套数据管理系统。 4.对基于规则推导的数据挖掘方法进行研究,主要基于决策树(Decision Tree) 方法,并根据其基本理论完成挖掘算法。 5.利用典型故障数据,对该系统进行分析。8 第2章大型旋转机故障诊断机理第2章大型旋转机械故障诊断机理大型旋转机械振动信号包含了大量的、极其丰富的有用信息,如:转子的轴线失中、动不平衡、轴承的腐蚀和缺陷、齿轮表面的磨损以及材料裂纹及其扩展等,这些信息在机械振动信号中都会有不同的反映。机械振动参数比起其它状态参数(如:润滑油或设备温度、压力、流量以及电机电流等)更直接、快速、准 确地反映旋转机械运行状态,因此将旋转机械的振动特性作为状态敏感因子的选 择对象。2.1机械故障诊断的方法旋转机械故障诊断要识别设备的运行状态,研究其运行状态的变化在诊断信 息中的反映。它的内容包括对设备运行状态的监测、故障预报和故障监视等,概 括为以下5个方面: 1.信号采集:根据设备工况,采集能够反映设备工作情况或状态的信号; 2.特征提取:从状态信号中提取与设备故障对应的特征信息(征兆);3.状态识别:根据特征信息,识别设备的故障(故障识别); 4.状态分析:根据设备运行时的征兆和故障,进一步分析故障的部位、类型、 原因和趋势等: 5.决策干预:根据设备的故障及其发展趋势,做出评价和决策,包括控制、 自诊治、调整、维修、继续监测等措施。整个诊断过程如图2.1所示:9 第2章大型旋转机故障诊断机理图2.1旋转机械故障诊断流程图通过安装在设各适当地方的传感器测取旋转机械的振动信号,并对此信号进 行分析与处理来判断设备工况与故障。振动检测按测量原理分为相对式与绝对式 两种:按测量方法可分为接触式和非接触式两类。振动检测主要是指振动的位移、速度、加速度、频率、相位等参数的测量。由于被测信号振动强度近似与被测体的振动加速度成正比,所以现行的测量设备 振动所用的参数基本上是加速度。由于振动法具有适用于各种类型各种工况的旋 转机械,可以有效的诊断出早期微小故障,而且信号测试与处理简单、直观,诊 断结果可靠等优点,所以在实际中得到了极为广泛的应用。振动(动态)信号的分 析处理方法有很多,诸如时域处理、频域处理、幅值域处理、时差域处理以及近 年来备受关注的时一频域处理等。 振动检测方法中的时域诊断方法是发展最早的一种检测方法。如果单从时域 波形上直接观察分析,往往很难看出设备状态是否正常,有无故障及故障的性质 部位等。为此,在时域诊断中,普遍采用振动信号的基本数字特征及其频率分布 特征来进行分析和诊断。应用比较广泛的有:振动信号的平均值、均方根值、方 差、概率密度函数、概率分布函数、自相关函数、互相关函数以及峰值因子、波 形因子、峭度系数等无量纲特征参数。 频域分析方法可以对旋转机械早期故障进行精密诊断。直接对旋转机械信号 进行频谱分析,结合频谱图的频率结构和特征频率的和频率差频分析,也可以判10 第2章大型旋转机故障诊断机理别出旋转机械运行状态的好坏。由于流体动力噪声机器旋转部件振动的干扰,适宜于简单机械的简单诊断。共振解调法被认为是频域分析法中较为有效的一种方法,该方法以轴承系统的共振频率区为监测带,振动信号经放大、滤波和解调,获得脉动冲击的低频脉动信号,以此作为分析的依据。 时间一频率分析由于小波分析理论的推广应用,在旋转机械故障诊断中也得 到了一定运用。特别是近年来国内在理论研究、仿真计算和试验分析方面做了大 量的工作。2.2时域分析在旋转机械故障诊断中的应用振动波形是转子振动振幅的瞬态值随时间延续而不断变化所形成的动态图 象。在时域分析中表达机组运行状态的特征参数常取波形的峰一峰值和均方根 值。波形分析就是通过形状、振幅大小变化快慢等特征的分析和观察,建立其与 转子运行状态之间的对应关系,以达到发现转子异常情况和诊断转子故障的目 的。波形分析具有简捷、直观的特点,应该在振动信号的分析中占有重要的位置。 波形分析主要是通过观察波形来反映转子的振动过程,掌握振动的变化规 律,得到反映转子状态和故障的各种特征。例如:发电机组转子的径向振动位移 信号。其正常运转时,波形基本上是一个简谐振动,其振动频率(振动波形上周 期T的倒数)与转子转速频率相同。 振幅标准值是随转速变化而变化的,转速越高,标准值越低,因此现在通常 不采用位移量来判断设备的好坏,而振动的速度有效值是与设备的转速相关的, 它确能反映设备的最大破坏能量。转速越高时,允许振幅越小。但是,振动的总 能量是不变的。换句话说,无论转速高低,准则只有一个,只允许一定的振动能 量。这种振动能量大小.是用振动速度的均方根表征的。如公式2.1所示:y雕=(2-1) 振动速度的有效值(Vrms)的另一名称为振动烈度。要判定设备状态就要有 相应振动烈度的判据。目前,最常采用的是ISO-2372标准,它按设备功率分类, 以振动速度有效值在于10"-'1000Hz频带内的变化为状态判定参量。标准如表2.1。 第2章大型旋转机故障诊断机理 表2.1旋转机械振动诊断的国际标准(IS02372)●鼙赣嚣痿刊墨ttO^Il∞甜ll'格02童?2(vDl2@5S)釜掣 一囊荤x鼍l l 潍}-粪lM麓c堰T量t警Ⅳ叠K盟t水懿魄赣。电铀母-《l亨hM盈?中蠹帆■.龟动妊d卜姗C基I羽性熏律的,c叠机曩-f5一舶奠_ T曩一弹性竟棒的矗干讥2.3频域分析在旋转机械故障诊断中的应用振动分析法对大部分故障的判断主要是从频域入手,在机器运行的过程中, 不同的工作状态所产生的振动信号其频谱的结构是不同的,机器运行状态的劣化 及故障的发生都对应着一定频率分量的变化。因而可以把特定的故障类型与特定 的频谱结构联系起来,对应某种故障的频率通常称为特征频率。同一零件的不同 故障,有不同的特征频率;同一故障对于不同零件,也有不同的特征频率。所以, 振动信号频谱分析和特征频率的识别是机械状态识别和故障诊断的有效方法。 通过对采集的信号进行经典功率谱分析或现代功率谱分析以及有关的信号 处理可以得到频域的振动频率分量,这里主要指的是振动速度的频率分量。这些 频率分量不仅可反映机组整体的运行状态,还能揭示主要部件运行的状态,从而 为故障分析与故障预测提供手段。振动的频率分量构成了振动的频谱曲线,该曲 线反映了信号在频域里的特征,所以将振动的频率分量也选择为机组状态的敏感因子。对于周期信号,利用傅氏级数原理,可将周期函数Y(t)分解成傅氏级数, 即将信号分解成许多谐波分量:12 第2章大型旋转机故障诊断机理’vff、:口012+qcos(t01t一矿I)+C2 cos(2w,t一矿2)+…….+c置cos(2w)t一妒。) (2-2)广―:――――='广――●――――一音由.c.=、/口。‘+吒‘,r/2吼=、/fg叫(k/a。)其中:an―q/疗J圳,(帅踟?P?押:1.2…,.r,2吒一q/rt I,,,(,)siⅡ一口1tdt’ 1’‘/'/‘I,L‘‘’由上述公式,以频率为横坐标,以幅值或相位为纵坐标做频谱图,可以表征 频率域的振动特性。频谱分析的目的,就是将信号中所有这些成分都分解开来,变成一系列可用的振幅、频率和相位描述的简谐振动.常用的频谱有功率谱和振幅谱。功率谱表示 振动能量在频率坐标上的分布情况,其应用十分广泛,而振幅谱则表示对应于各 频率的简谐振动分量所具有的振幅。对于转子来说,振动信号中的很多频率分量 都与转子转速关系密切,往往是转速频率的整数倍或分数倍,所以,应用振幅谱 往往更直观一些。振幅谱上谱线的高度就是转子振动中该频率分量的幅值大小。 在转子振动频谱上,不同的频率分布往往对应不同的振动原因。例如,转子 不平衡会产生转速频率的振动分量,对中不良易导致二倍频转速频率的振动分量 (常称为二倍频),等等。机械设备常见故障及其振动频率的特征见附表。 分析幅值谱时,首先,要看频谱中都有哪些频率分量,每个分量的大小各是 多少。幅值较高的谱峰自然会引起我们的注意,它们的值对振动的总水平影响较 大。需要分析一下产生这些频率分量的可能因素。观察它们随时间的发展而变化 的情况。在机器振动中,有些振动分量虽然较大,但是很平衡,不随时间的变化 而变化,对机器的正常运行也不会构成多少威胁。而一些较小的频率分量,特别 是那些增长很快的分量却常常预示着故障的征兆,应该引起足够的重视。而这正 是经常容易忽视的地方。特别需要注意的是,一些在原来的谱图上不存在或比较 微弱的分量突然出现并且扶摇直上,可能会在比较短的时间内破坏机器的正常工 作状态.因此,分析幅值谱时不仅要注意各分量的绝对值太小,还要注意其发展 变化的情况。 振动信号的频谱图中,不同的频谱谱线反映了机组运行状态不同的信息。但 并不是每一根谱线反映的信息都是有用和值得关注的。经过对于大型机组分析和实验观察,发现应主要监测和跟踪o?3^,0.42fo,厶,玩,3厶,饥,j厶,13 第2章大型旋转机故障诊断机理矾处的频谱分量,其中五是主轴旋转频率,这八根谱线基本上能全面反映机组的运行状态。2.4时一频分析在旋转机械故障诊断中的应用时~频分析是最近几年来颇为引人关注的信号分析方法。在许多实际问题分 析中往往需要对信号进行时一频分析,时一频分析的方法很多,例如:短时傅立叶 分析、小波分析、Wigner谱分析等等。 传统的频谱分析(以傅立叶变换为代表)和时一频分析的不同在于:频谱分析能 够确定哪些频率成分存在,而时一频分析则能够确定在某一特定的时间哪些频率 成分存在。时一频分析的主要任务是描述信号的频谱含量是怎样随时问变化的, 研究并了解时变频谱在振动信号中的意义。时一频分析的最终目的是要建立一种 分布,以便能在时间和频率上同时表示信号的能量或者强度,得到这种分布后, 就可以对各种信号进行分析、处理,提取信号中所包含的特征信息,或者综合得到具有期望的时一频分布特征的信号。2.4.1时一频分析的基本概念 在信号分析中,通常对信号的基本表示,往往采取两种最基本的形式,即时域形式和频域形式。把时间作为自变量,而把信号的某一数字化特征作为因变量来描述信号是一 般常用的方式。此时,自变量所取范围统称为时域。但是信号在固定时间区域的 孤立值本身没有多大意义。因此,往往对信号作另一描述,即用它的频域变换来 描述它的频率特性。 频域变换虽然能较好地描述信号的频率特性,但几乎不能提供信号在时域上 的任何信息,这样就面临着这样一个矛盾:时域与频域的局部化矛盾,即如果想得 到信号在时域上足够精确的信息,就得不到信号在频域上的信息。 反之,如果想得到信号在频域上足够精确的信息,就得不到信号在时域上的 信息。为解决这一矛盾,需要寻找一种能同时反映信号的时变特性和频率变化特 性的新方法。1946年Gabor首先总结提出了短时傅立叶分析的方法,开创了时一 频分析的新领域。其后,Ville又把Wigner在研究量子力学理论时提出的时一频 分布理论应用到信号分析中,提出Wigner-Ville分布。14 第2章大型旋转机故障诊断机理2.4.2信号的时一频表示和相平面 为了刻画某一瞬时的信号特征,Papoulis在1977年提出了瞬时~频率的概念:1Jto(t)全_1-兰ang{f(t)}Z万“‘(2-3)式中,ang{f(t)}称为瞬时相位但是,这种瞬时一频率只能恰当地描述时变单分量信号:这是因为上式将频率 f表示为时间的显函数to=to(t),因此,在每一时刻t只能有一个单频分量存在, 这对绝大多数信号是不适用的。 为解决这个问题,可以考虑采用一个曲面来描述信号的时间频率结构。在数 学上,这种做法相当于采用时间t和频率to。作为变量构成的双变量函数T(t,to) 称T(t,to)为信号f(t)的时一频表示。 2.4.3窗口函数 为反映信号的局部特征,希望寻找这样一个基函数,它在时域上和频域上都 具有很好的局部化特性。也就是说,它在时域上集中于某一点t。附近,而在频 域上集中于某一点%附近,这种在时域和频域上都具有很好的局部化特性的基函数称为窗函数。 易证,如果函数在时域上集中于一点,则在频域上,该函数不可能仍集中于 一点上,反之亦然。所以本文假设存在一个在时域和频域上分别集中于点‰,%.)附近的基函数,它在时域上的局部化范围为[to一口,q一引,而在频域上的局部化 范围为【%一6,too+圳,这样就在时一频表示国一t平面上形成了一个矩形区域,这 个区域称为窗,而把a和b称为窗口的时宽和频宽。 这是一种直观解释,实际上不能实现。这是因为理论上可以证明,任何一个 函数不可能同时在时域和频域上都具有紧支集,也就是说,该函数在时域和频域 不可能同时都是有限长。通常采用类似于均值和方差的方法来定义窗函数的中心和窗口宽度.2.4.4短时傅立叶变换短时傅立叶变换也叫加窗傅立叶变换,实际上是一种所谓的广义滤波器的分 析,它是由Oabo:首先使用.其基本思想如下:傅立叶变换是频域分析的基本工具, 为了达到时间域的局部化,在傅立叶变换中的基本变换函数之前乘上一个时间上 有限的时限函数,然后用它来作分析工具,就可达到时、频双限的目的。15 第2章大型旋转机故障诊断机理对于时间局部化的最优窗口,用一个Goussian函数窖。(f)=exp(―‘‘J/2√刀口(2-4)作为窗口函数,其中阿a>0,且是定值。这样对于任何定值a>O.一个信号f(t)e 12(R)都可以用一种叫“Gabor一变换的方法,在t=b的周期使信号琢)的傅 立叶变换局部化。(q力(珊)=L[exp(-jaJt)f(t)]g.o―b)dt(2-5)考虑到计算的有效性或实现的方便性等,也可选择其它函数代替Gaussian函 数作为窗函数。用一个满足上式的函数g作为窗函数,则由上式可把Gabo:变换 推广到一个信号,(f)∈r(月)的Fouri盯变换如下(倪门(由)=I[exp(-jan)f(t)]g(t-b)at(2-6)由此给出短时傅立叶变换的定义:如果选择g∈口@)得使g与它的傅立叶变换满足式(2q,那么使用g作为窗函数,在式(2.6)中引入的窗口傅立叶交换,称为短时傅立叶变换。为工程计算方便,用下式表达傅立叶变换:巧们(屯耐=1.f(t)g(t-6)exp(-jtat)dt.如果同时,(f)eECR),则在九f)连续的每个点x,有重建信号:(2?J7)f(t)=去e e【吲M)垆’(6,国瑚(,一b)d国db(2-8)式中,h(t-b)exp(ywt)=吃.。O)称为合成窗。对于一个确定的岛.,(0,合成窗k。(O不是唯~的。2.4.5小波变换 小波变换是一种与短时傅立叶相类似的时一频描述方法。小波变换是上世纪 80年代后期发展起来的应用数学分支。它是一种函数分解方法,使用一个变宽度 的函数,可以产生一系列的分辨率。不同于傅立叶变换使用的正弦函数作基来分 解信号,小波变换用更一般的函数作基。这样,一方面产生了更加全面的变换结 果,但另一方面也产生了更加多样的可能性的解释。选择基本小波函数成为了应 用小波变换中的一个主要问题。 把某一被称为基本小波【也叫母小波(Mother Wavelet)】的函数尹W作位移:后, 在不同尺度a下与待分析信号x(t)作内积:16 第2章大型旋转机故障诊断机理lYTx(a,r)=忑1e删+(等)at制。,疙黼删(2-9)式中a>O是尺度因子,f反映位移,其值可正可负。尺度因子?的作用是将基本 小波≯(f)伸缩,a愈大则庐(三)愈宽,在不同尺度下小波的持续时间随。加大而增宽,幅度则与石成反比减小,但波的形状保持不变。前加因子1/如的目的是使不同。值下丸,(f)的能量保持相等。即,设:g=眇(t)f‘art是基本小波的能量,则或,(f)的能量是拈J1击烈水=廿扣=F等效的频域表示是位㈣lYT(a,r)=尝I=砌妒}(aco)d。7d彩2-11)式中J(珊),矿佃)分别是x(t),≯(f)的傅立叶变换。 小波变换区别于某些常用变换,如傅立叶变换、拉氏变换的一个特点是没有 固定的核函数。但并不是任何函数都可以用作小波变换的基本小波庐(O。任何变 换都必须存在反变换才有意义,而反变换并不一定总是存在的。对小波变换而言,所采用的小波必须满足容许条件,反变换才存在,即必须满足c.:[o幽<∞时才能由小波变换暇0,f)反演源函数x(t)。此时.啪2专f窘£暇(叩)屯如2i1 L7da e暇(叩)去≯[等卜㈣21由容许条件可推出:能作基本小波≯(f)的函数至少必须满足。即妒(国)必须具 有带通性质,且庐(f)必须是有正负交替的振荡波形。使得其平均值为零。这也是 称之为Ⅳ小波’’(Wavelet)的原因。2.4.6-jgner―V.1 I e分布Wigner-VilIe分布可看作非平稳时变信号能量在联合时间和频率域中的分布, 是分析非平稳时变信号的重要工具。Wigner-Ville分布不仅具有许多有用的特性. 而且与许多其它时域表示相比,能更好地描述信号的时变特征。尽管其受到交叉 干扰项约,Wigner-Ville分布仍然得到了广泛的应用。2.4.6.I W i gner―Vine分布的定义实际信号J(0的Wigner-Ville分布定义为17 第2章大型旋转机故障诊断机理嘭p,砷皇.e工[r+主}+[f一主]91”dr(2―13) (2-14)吼矿去科∞+制∞一母加dn式中:x(0一s(r)的解析信号,x(t)=s(t)+jH【“t)】;啦)】=妻学f式中:H【s(t)】.信号的Hilbert变换。2.4.6.2Wi㈣gnor一7i fIe分布的主要性质Wign.er-Ville分布在机械状态监测和故障诊断中应用的主要特性如下。1.时移不变性若x(t)=x(t-to)则睚(f,co)=g(t-to,砷2.频移不变性若x(t)=加)∥,则氍(‘国)=w(t,a)-too)3.时域有限性若t芒【tl,t2】时有xCt)=o,则呢(f,曲=04.频域有限性若m芒[q,吐】时有x(t)卸,则呢(f,曲=O 5.时问边界条件去e吸o,彩)如=M126.频率边界条件eE(f,国)如=M122,4.6.3Wigner―Vi I|e分布的计算由于Wigner-Vflle分布的积分是对整个时间轴,实际上是无法进行的。由于 工程中必须对信号加窗处理,这就引出了一种新的分布―伪Wigner-Ville分布,公式为P磁以砷;废肿)m+》?卜三]r御d矾式中g(t)一窗宽为△的正实窗函数。(2?16)该分布的优点是在某种程度上压缩了多分量信号的交叉祸合项,为对18 第2章大型旋转机故障诊断机理Wigner-VHle图像的直观解释带来方便,同时加快了信号实时处理的速度。 P巩(f,co)的离散算法如下<j,一1×?WAn,历)=2∑‘g(m)x(n+m)x?(n-m)e卅删“m=-{M―I)//2(2?17)式中g(朋)一奇数长度M的正实窗函数。‘厂2等“2劳H 2考2M f。 f.,式中:Z一信号的采样频率,厶一信号的最大总体频率,fs≥2厶。 式(2.17)"e的M表示每一时间11处分布的频率采样个数,因此在时间t=n/fs时离 散伪Wigner-Ville分布可用离散Fourier变换(DFT)计算。DFT作用于M点函数舢)的m个变换。函数c旭m)定义为:7O<m≤^乡<(2―18) (2.19) c(疗,m)=g(m―M)x(n+m―M)工宰(刀一re+M)^么≤朋≤M一1c(n,研)=g(,,z)z(刀+m)工?(疗+m)2.4.7短时傅立叶变换、小波变换、Wigner―V.1 Ie分布比较2.4.7.1短时傅立叶变换与小波变换比较 短时傅立叶变换所确定的时一频窗口的大小和形状是固定不变的,而振动信号的频率与时间周期成反比,对于高频信号,时间分辨率相对高,时域窗口应该 相对窄:对于低频信号,时间分辨率相对低,时域窗口应该相对宽。显然固定形状 和大小的窗函数的短时傅立叶变换,不能很好地满足信号分析的这一要求。对于高频信号,固然可以通过缩小时域窗口宽度改进时域分辨率,但却将低了频域分辨率,对低频信号则不合适,同时缩小时域窗口宽度会使计算变得相当复杂。 小波变换与短时傅立叶变换的相似之处是很显然的:均使用了x(O与双指标函 数族的内积表达式。在小波变换中,这类双指标函数被称为小波函数。当a变换 时小波函数将覆盖不同频率范围(尺度a的大值对应低频或大尺度的小波函数;而a 的小值对应高频或小尺度的小波函数.),改变参数:相当于移动时窗中心,这种情 况与短时傅立叶变换对x(t)的时一频划分方式相似。 小波变换与短时傅立叶变换的不同之处表现在‰.,O)-hq)e‘加与丸(f)的形 态。函数‰,是由同一个包络函数g平移到某个时间位置上并在时窗内填入高频 振荡信号的结果。整个g。。无论国的值如何变化均具有相同的窗宽。19 第2章大型旋转机故障诊断机理与此相对地.具有适应频率变化的可变窗宽。高频时吮,(f)的时窗较窄,低频 时时窗较宽,其结果是小波变换比STFT对高频现象如信号中的奇异性有更好的“显微”效果。 2.4.7.2短时傅立叶与Wigne-Vi lIe分布比较1.与Fourier谱不同,Wigner-Ville谱对于分析非平稳时变信号是强有力的工具。 2.利用解析信号可极大地压缩了多分量信号的交叉藕合项,时一频图像和时域、频域信号图相互对应,直观性强。 本章分析表明短时Fourier谱和Wigner-Ville分布都能用于将时域信号变换到 时一频域,但是对于时变信号,应用Wigner-Ville分布更为适宜。 分析中Wigner-Ville分布存在一个主要缺陷,即交叉干扰项(Cross―Term Interference)交叉干扰项是指当信号含有多个成分时,信号的Wigner-Ville分布中 将在两成分之间时一频中心坐标的中点处存在振荡分量,它提供了虚假的能量分布,影响了Wigner-Ville分布的物理解释。尽管许多专家学者致力于解决这一问题,但迄今仍然没有找到能够完全消除交叉干扰项而又不损害Wigner-Ville分布 有用特性的方法。 从物理意义上讲,交叉干扰项的存在是由于时间干涉和频率干涉所致。对于前者,在计算PWD时可通过使用短的时间窗加以抑制。对于后者,由于与频率有关,所以可通过信号滤波将有用的分量保留而滤掉无用成分,而使交叉干扰项得到抑制。 第3章数据挖掘技术概述第3章数据挖掘技术概述数据库技术的发展提供了存储海量数据信息的可能,但当面对越来越多迅速 膨胀的超级数据库时,人们却无从着手去理解数据中包含的信息,更难以获得有 价值的信息。原有的决策支持系统(Dss)i:a,不能满足需要,人们迫切需要把这些看 似分敖的数据,提炼成一条条有价值的信息,来指导今后的行为。随着数据库技 术和计算机硬件的进一步发展,出现了数据挖掘(Data Mining)技术,为解决上述问题提供了较好的方案3.1数据挖掘的概念与过程3.1.1数据挖掘的概念 从广义上讲,数据挖掘(Data Mining-DM)是指从大量的、不完全的、有噪声 的、模糊的、随机的数据中,提取隐含在其中的、.人们事先不知道的、但又是潜 在有用的信息和知识的过程。这个定义包括以下四个层次的含义: 1.数据源必须是真实的、大量的、含噪声的: 2.发现的是用户感兴趣的知识: 3.发现的知识要可接受、可理解、可运用,最好能用自然语言表达发现结果;4.并不是要求发现放之四海皆准的知识,也不是要去发现崭新的自然科学 定理和纯数学公式,更不是什么机器定理证明,所有发现的知识都是相对的,是 有特定前提和约束条件、面向特定领域的。 3.1.2数据挖掘的过程 虽然我们把各个步骤按顺序排列,但要注意数据挖掘过程并不是线性的。要 取得好的结果就要不断反复重复这些步骤。各步骤的大体内容如下: 1.确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘 的最后结构是小可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据 挖掘则带有盲目性,是不会成功的。 2.数据的选择2l 第3章数据挖掘技术概述搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。 3.数据的预处理研究数据的质量,为进一步的分析做准备。并确定将要进行的挖掘操作的类型。 4.数据的转换将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一 个真正适合挖掘算法的分析模型是数据挖掘成功的关键。5.数据挖掘对所得到的经过转换的数据进行挖掘。除了选择合适的挖掘算法外,其余一 切工作都能自动地完成。6.结果分析解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。 7.知识的同化 将分析所得到的知识集成到业务信息系统的组织结构中去。3.1.3数据挖掘的特点与分类3.1.3.1数据挖掘的特点数据挖掘是从实际的海量数据源中发现知识。因此数据的完整性、一致性和 正确性难以保证,而数据挖掘算法的效率、有效性和扩充性非常关键。数据挖掘与传统的数据库查询区别表现在:前者是主动的、不生成严格的结果集和不同层 次的挖掘,而后者则是被动的、只对字段进行严格的查询。归纳起来,数据挖掘有如下特点: 1.处理的数据规模十分巨大。 2.查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求,需要靠数据挖掘技术寻找其可能感兴趣的东西。3.在一些应用中,由于数据变化迅速可能很快过时,因此要求数据挖掘能 快速做出反应以提供决策支持。 4.数据挖掘既要发现潜在规则,还要管理和维护规则。而规则是动态的, 当前的规则只能反映当前状态的数据库特征,随着新数据的不断加入,规则需要 第3章数据挖掘技术概述随之更新。 5.数据挖掘中规则的发现主要基于大样本的统计规律,发现的规则不必适 用于所有数据。 3.1.3.2数据挖掘的分类根据所开采的数据库类型、发现的知识类型、采用的技术类型,数据挖掘有 不同的分类方法。1.按数据库类型分类如果从关系数据库中发现知识,称为关系数据开采:如果从面向对象数据库中发现知识,称为面向对象数据开采:还有事务数据库、演绎数据库、时态数据库、 多媒体数据库、主动数据库、空间数据库、历史数据库、Internet信息库等数据挖 掘。 2.按挖掘的知识类型分类按挖掘的知识类型可分为关联规则、特征规则、分类规则、偏差规则、聚集 规则、判别式规则及时序规则等。另外,按知识的抽象层次可分为归纳知识、原 始级知识、多层次知识。一个灵活的规则挖掘系统能在多个层次上发现知识。 3.按利用的技术类型分类 根据挖掘方法分为自发知识挖掘、数据驱动挖掘、查询驱动挖掘和交互式数 据挖掘。根据挖掘途径分为基于归纳的挖掘、基于模式的挖掘、基于统计和数学理论的挖掘及集成挖掘等。 4.按挖掘的深度分类在较浅的层次上,利用现有数据库管理系统的查询/检索及报表功能,与多维 分析、统计分析方法相结合,进行联机分析处理(OLAP),从而得出可供决策参考的统计分析数据。在深层次上,从数据库中发现前所未知的、隐含的知识。3.1.4数据挖掘的发现模式与对象 3.1.4.1数据挖掘的发现模式 随着数据挖掘和知识发现(DMKD)的研究逐步走向深入,其研究已经形成了 三个强大的技术支柱:数据库、人工智能和数理统计。因此,KDD大会程序委员 会曾经由这三个学科的权威人物同时来任主席。目前DMKD的主要研究内容包 括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示 第3章数据挖掘技术概述方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。下面就数据挖掘所发现的最常见的知识模式(类型)作以简单介绍,所介绍的这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微 观到中观再到宏观,以满足不同用户、不同层次决策的需要。 1.广义模式 广义模式(Generalization pattern)是指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是对数据的概括、精炼和抽象。广义模式的发现方法和 实现技术包括数据立方体、加拿大SimonFraser大学提出的面向属性的归约(attribute-orientod induction,AOI)方法等。2.关联模式关联模式(Association Pattern)是反映一个事件和其他事件之间相互依赖或关联的知识。经典的关联规则发现方法可分为两步:第一步是迭代识别所有的频繁项 集,要求频繁项集的支持率小低于用户设定的最低值:第二步是从频繁项集中构造 可信度小低于用户设定的最低值的规则。识别或发现所有频繁项集是关联规则发 现算法的核心,也是计算量最大的部分。在进行关联知识发现时,需要由用户输 入最小置信度C和最小支持度S。 最为著名的关联规则发现方法是由Agrawal和Srikant提出的Apriori算法, 此外还有FP.growtll_,DHP,STEM,AIS等算法。 3.序列模式序列模式(Sequ黜Pazm'n)分析和关联分析相似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据问的前后序列关系。它能发 现数据库中形如“在某一段时间内,顾客购买商品A,接着购买商品B,而后贿 买商品C,即序列A_÷B呻C出现的频度较高”之类的知识,序列模式分析描述 的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易 集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序 列。在进行序列模式分析时,同样需要由用户输入最小置信度C和最小支持度S。 4.分类模式 设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个记 录都赋了一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析就 是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或 第3章数据挖掘技术概述挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。导出模 型是基于对训练数据集(即其类标记已知的数据对象)的分析而产生的。分类模式 的预测值可以是离散的(如根据某种动物的特征来判断这种动物是两栖动物还是 哺乳动物),也可以是连续的(如根据某人的受教育情况和工作经验来判断这个人的工资范围1。‘分类模式(Classification Pattern)的实现技术包括决策树、统计、粗糙集承oughset)、神经网络方法等。最为典型的决策树学习系统是ID3,它采用自顶向 下不回溯策略,能保证找到一个简单的树。算法CA.5和C5.0都是ID3的扩展,它们将分类领域从类别属性扩展到数值型属性。线性回归和线性辨别分析是典型的统计模型分析方法。5.聚类模式 聚类分析和分类分析是一个互逆的过程。在统计方法中,聚类分析是多元数据分析的三大方法之一(其它两种是回归分析和判别分析)。在机器学习中,聚类 分析被称作无监督或无教师归纳。在人工智能文献中,聚类也称概念聚类。与分 类分析不同,聚类分析输入的是一组未分类记录,并且这些记录应分成几类事先 也不知道。聚类分析就是通过分析数据库中的记录数据,根据一定的分类原则, 合理地划分记录集合,确定每个记录所在类别。数据库中的记录被化分为的一系 列有意义的子集叫做聚(簇)类。分类原则采用最大化类内的相似性、最小化类间 的相似性原则,即使得一个簇中的对象具有很高的相似性,而与其它簇中的对象很小相似。聚类模式(Clustering Pattern)包括统计方法、机器学习方法、神经网络方法和 面向数据库的方法,比如,系统聚类法、分解法、加入法、动态聚类法、有序样 品聚类、有重叠聚类、模糊聚类法、运筹方法等。主要的聚类算法的类型可分为 基于划分方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型 的方法等。一个聚类算法通常包含了多种聚类方法的思想。在神经网络中,有一 类无监督学习方法:自组织神经网络方法,如Kohonen自组织特征映射网络、竞争学习网络等。在数据挖掘领域里,.神经网络聚类方法主要是自组织特征映射方法,ⅢM在其发布的数据挖掘白 皮书中就特别提到了使用此方法进行数据库聚类分割。6.预测模式预测模式(Prediction Pattern)根据时间序列型数据,由历史的和当前的数据去 第3章数据挖掘技术概述推测未来的数据,也称作时间序列模式。可以认为预测型模式是以时间为关键属 性的关联模式。时间序列预测的方法有经典的统计方法、神经网络方法和机器学习方法等。 7.偏差模式 偏差模式(Deviation Pattern)是对差异和极端特例的描述,揭示了事物偏离常 规的异常现象。偏离常规的数据有时被叫做孤立点(outlier),因此偏差模式有时被 叫做孤立点模式。偏差模式的发现方法可以分为统计的方法、基于距离的方法和基于偏移的方法等。 3.1.4.2数据挖掘的对象原则上讲,数据挖掘可以在任何类型的信息存储上进行,这包括关系数据库、 数据仓库、事务数据库、Www、面向对象数据库、对象―关系数据库、时间序列数据库、空间数据库、文本数据库、多媒体数据库等。挖掘的原始数据可以是 结构化的,如关系数据库、数据仓库中的数据也可以是半结构化的,如文本、图 形和图像数据甚至是分布在网络上的异构型数据。下面就几个重要的数据挖掘对 象予以介绍。 1.关系数据库关系数据库是表的集合。每个表都被赋于一个唯一的名字。每个表包含一组 属性(列或字段),并通常存放大量元组(记录或行)。关系中的每一个元组代表一个被唯一的关键字标识的对象,并被一组属性值描述。语义数据模型,如实体一联系(E.R)数据模型,将数据库作为一组实体和它们之间的联系进行建模。 关系数据库可以通过数据库查询访问。数据库查询使用如SQL这样的结构化 查询语言,或借助于图形用户界面书写。关系查询语言可以回答诸如“哪一月份销售额最初一,“按分店分组,显示上月总销售额。"等问题。关系数据库具有完备的数学理论基础和广泛的普及度,是数据挖掘最流行、最丰富的数据源,是 数据挖掘研究的最主要的数据形式。 数据挖掘用于关系数据库时,可以进一步搜索趋势或关系模式。例如,可以 根据顾客的收入、年龄和以前的信用信息预测新顾客的信用风险,可以检测偏差, 发现与以前的年份相比,哪种商品的销售出入预料等。2.数据仓库 第3章数据挖掘技术概述数据仓库的概念始于20世纪80年代中期,其创始人一号称“数据仓库之父一的William H.Innlon在他的《建立数据仓库》一书中对数据仓库是这样定义的:数 据仓库就是面向主题的(subject-oriented)、集成的(integrated)、时变的(time-variant), 非易失的(nonvolatile)数据集合。今天数据仓库所要提供的正是当年关系数据库所要倡导的。以辨证的眼光 看,从文件管理到层次、网状数据库,从1969年E.F.Codd博士发表他的著名的 关系数据模型的论文到数据仓库的诞生,数据仓库的兴起实际是数据管理的一种 回归,是螺旋式的上升。今天的数据库就好比当年的层次数据库和网状数据库,它们面向事务处理:今天的数据仓库就好比是当年的关系数据库,它针对联机分析。所不同的是,今天的数据仓库不必再为联机事务处理的特性而无谓奔忙,由于技术的专业化,它可更专心于联机分析领域的发展和探索。数据仓库技术的出现和逐步成熟为数据挖掘技术的繁荣注入了强劲的动力。3.事务数据库一般地说,事务数据库由一个文件组成,其中每个记录代表一个事务。通常, 一个事务包含一个唯一的事务标识号trans.ID(如信用卡号)和一个组成事务的项 的列表(如顾客购买的商品),有的还包含事务的处理时间。事务数据库还可能有 一些与之相关联的附加表,包含关于事务的其他信息。事务数据库通常用于“购物篮数据分析一,对于关联规则数据挖掘非常有效。 4.高级数据库及高级数据库的应用近年来,数据库技术已发生了很大的变化,数据库的应用在CAD、软件工程,及办公信息系统等领域己得到运用。由原来的单一关系数据库发展到面向对象数据库、事物(Transaction)数据库、空间(Spatial)数据库、对象一关系数据库、文本 数据库、多媒体数据库等新的数据库系统,同样,数据挖掘的数据来源也可以取自这些类型的数据库系统。近几年,因特网的大规模普及使人们接受的信息无法承受,利用数据挖掘技 术在Web上进行信息搜索成为高速增长的一个领域。 3.1.5数据挖掘的方法、知识表示和应用3.1.5.1数据挖掘的方法前面在介绍数据挖掘的发现模式时,针对每一种知识类型,都介绍了相应的 数据挖掘技术。通常,数据挖掘技术可分为知识发现方法、统计方法、分析方法、 第3章数据挖掘技术概述数据库方法等。下面,将对这些技术作以简要的介绍。1.知识发现方法知识发现方法可分为:归纳学习方法(决策树、规则归纳等)、基于范例的学习、遗传算法、人工神经网络、邻近搜索方法、集合论的粗集方法、模糊逻辑、公式发现等。2.统计方法统计方法可分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类、分解法、加入法、 模糊聚类法、运筹方法等)、探索性分析(主元分析法、相关分析法等)等。 3.分析方法分析方法可分为:关联分析、序列模式分析、分类分析等。4.数据库方法 数据库方法可分为:多维数据分析、OLAP方法、向属性面的归约方法等。 3.1.5.2数据挖掘的知识表示 数据挖掘各种方法获得的知识的表示形式主要有6种:规则、决策树、知识基 (ge缩数据)、网络权值、公式和案例。 1.规则规则知识由前提条件和结论两部分组成。前提条件由字段项(属性)取值的合 取(与)和析取(或)组合而成,结论为决策字段项(属性)的取值或者类别组成。 例如:两类故障的7个元组(记录)如下表所示。表3.10―旬.4fO.4―_0.6flf低 油膜涡动 中 低 中 低 低 不平衡 中高 高. 中 中 低 低 低低 低 低 低 高中中利用数据挖掘方法,将能很快得到如下规则知识: 第3章数据挖掘技术概述IF(1f=低)AND(O.4-_o.6f!=低)AND(o__o.4fl=高)THEN故障类型为油 膜涡动 IF(1 f!='fI毛)AND(O.牛_o.6f=低)AND(0__o.4fl=高)THEN故障类型为 不平衡liP:凡是1倍频为低,并且O.4_-0.6倍频不为低同时肛加.4倍频不为高故障类型为油膜涡动:凡是l倍频不为低,并且O.4-_0.6倍频为低同时o__o.4倍频为低故障类型为不平衡 2.决策树数据挖掘的信息论方法所获得的知识一般表示为决策树。如ID3方法的决策树是由信息量最大的字段(属性)作为根结点,它的各个取值为分枝,对各个分枝所划分的数据元组(ig录)子集,重复建树过程,扩展决策树,最后得到项同类别的子集,以该类别作为叶节点。例如,上例的故障类型数据库,按ID3方法得到的决策树如图所示。C塑●图3.1决策树3.知识基(浓缩数据) 数据挖掘方法能计算出数据库中字段项(属性)的重要程度,对于不重要的字 段可以删除,对于数据库中的元组(记录)能按一定的原则合并,这样,通过数据 挖掘的方法能大大压缩数据库的元组和字段项,最后得到浓缩数据,称为知识基。 它是原数据库的精华,很容易转换成规则知识。 第3章数据挖掘技术概述例如上例的故障类型数据库,假设o__0.4f是不重要的字段,删除该项后,在合并相同数据元组,得到的浓缩数据如表所示。’表3.2知识基(浓缩数据)O.4―旬.6flf第一类 第一类 第一类 第二类高 中 低 低低 低 高 中4.网络权值 神经网络方法经过对训练样本的学习后,所得到的知识是网络权值,一般表 示为矩阵和向量。 5.公式 对于科学和工程数据库,一般存放的是大量实验数据(数值)。它们中蕴含着一定的规律性,通过公式发现算法,可以找出各种变量间的相互关系,用公式表示。 6.案例案例是指人们经历过的一次完整的事件。当人们要解决一个新问题时,总是先回顾自己以前处理过的类似事件(案例),利用以前案例中解决问题的方法或者 处理结果,作为参考并进行适当的修改,以解决当前新问题。利用这种思想建立 起基于案例推理(CascBasedReasoning,CBR)。CBR的基础是案例库,在案例库中存放着大量成功或失败的案例。CBR利用相似检索技术,对新问题到案例库 中搜索相似案例,在经过对旧案例的修改来解决新问题。可见,案例是解决新问题的一种知识。案例知识一般表示为三元组: 1)lh]题描述:对求解的问题及周围世界或环境的所有特征的描述; 2)解描述:对问题求解方案的描述;3)效果描述:描述解决方案后的结果情况,是失败还是成功。 3.I.6数据挖掘的局限性和发展趋势 1.数据挖掘的局限性‘数据挖掘是一个工具,而不是有魔力的权杖。它不会坐在数据库上一直监视 第3章数据挖掘技术概述数据库,然后当它发现有意义的模型时发一封电子邮件。他仍然需要了解业务,理解数据,弄清分析方法。数据挖掘只是帮助商业人士更深入、更容易地分析数 据,它无法告诉某个模型对企业的实际价值,而且数据挖掘中得到的模型必须要在现实生活中进行验证。 注意数据挖掘中得到的预言模型它不会告诉一个人为什么会做一件事或采 取某个行动,数据挖掘只会告诉使用者它会这么做,至于为什么它这样做则需要 人去考虑。比如,数据挖掘可能会告诉你,如果这个人是男的、年收入在5万到6万之间,那么他可能会买你的商品或服务。你可能会利用这条规则,集中向这类人推销商品并从中获益,但是数据挖掘工具不会告诉你他们为什么会买你的东西,也不能保证所有符合这条规则的人都会买。 为了保证数据挖掘结果的价值,必须了解数据,这一点至关重要。数据挖掘不会在缺乏指导的情况下自动的发现模型。不能让数据挖掘工具帮我们提高直接 邮件推销的影响率,而是应该让数据挖掘工具找对推销回应的人,或既回应又做了大量订单的人的特征。在数据挖掘中,寻找这两种模型是很不相同的。虽然数据挖掘工具可以让使用者不必再掌握高深的统计分析技术,但使用者仍然需要知道所选用的数据挖掘工具是如何工作的,它所采用的算法的原理是什 么。所选用的技术和优化方法会对模型的准确度和生成速度产生很大影响。 数据挖掘永远不会替代有经验的商业分析师或管理人员所起的作用,它只是提供一个强大的工具。每个成熟的、了解市场的公司都已经具有一些重要的、能 产生高回报的模型,这些模型可能是管理人员花了很长时间,作了很多调查,甚 至是经过很多失误之后得来的。数据挖掘工具要做的就是使模型得到的更容易、更方便,而且有根据。 2.数据挖掘的发展趋势当前,数据挖掘和知识发现的研究方兴未艾,其研究与开发的总体水平相当 于数据库技术在70年代所处的地位,迫切需要类似于关系模式、DBMS系统和 SQL查询语言等理论和方法的指导。鉴于数据、数据挖掘任务和数据挖掘方法的多样性,给数据挖掘技术提出了许多挑战性的课题,这些课题包括:11数据挖掘应用的探索:2)可伸缩的方法:3)交互式发现;4)与数据库系统、数据仓库系统和Web数据库系统的集成:31 第3章数据挖掘技术概述5)数据挖掘语言的标准化; 6)可视化数据挖掘: 7)复杂数据类型挖掘: 8')Web挖掘,隐私保护和信息安全等。但是,不管怎样,需求牵引与市场推动是永恒的,DMKD将首先满足信息时 代用户的急需,大量的基于DMKD的决策支持软件产品将会问世。 只有从数据中有效地提取信息,从信息中及时地发现知识,才能为人类的思维决策和战略发展服务。也只有到那时,数据才能够真正成为与物质、能源相媲 美的资源,信息时代才会真正到来。32 第4章决策树第4章决策树大型旋转类机械是石化、电力、冶炼等工业领域的一类重要生产设备,对旋转机械故障诊断和状态监测的常用手段是振动信号频谱分析,故障的提取主要是 以状态响应、时域响应或频率为基础。得出特征曲线,然后根据曲线去判断其是 否存在异常,判别故障类型。这些方法一般适合于中小型设备,而对大型设备难以适用。其原因是大型设备外部干扰多,难以获得所需特征信息。设备运行过程中,元素的故障与特征并不总是一一对应。数据挖掘技术能从海量数据中得到规律性的知识,对解除外在干扰具有独特的优势,因此考虑将其中的决策树方法引入故障诊断领域。传统挖掘方法有一定的局限性,例如只重视从数据库中提取规则,忽视了库 中数据的变化,挖掘所用的数据来自稳定的环境,人为干预较少,所以灵活性较差。而决策树(Decision Tree)在这方面却有着一定的优势,即使训练库中数据变化,通过遍历树也会很容易重新调整树的结构。基于逻辑分析的决策树方法最重要的特点是能把复杂决策过程分解为简单决策过程的累加,依此提供易于解释的解决方法。决策树是一个类似于流程图的树结构。考虑把决策树方法引入故障诊断,以生成故障判别树,获得精练的判别 规则,为故障的归类提供有力的决策依据。4.1构造决策树决策树方法的起源是概念学习系统CLS,然后发展到ID3方法而为高潮,最 后又演化为能处理连续属性的C45。有名的决策树方法还有CART和Assistant。 主要用途是提取分类规则,进行分类预测。图4.1为决策树的生成过程。决策树构造的输入是一组带有类别标记的例子,构造的结果是一棵二叉树。二叉树的内 部节点(非叶节点)一般表示为一个逻辑判断,如形式为4 2,,的逻辑判断,其中 次4∈A,A为属性集,‘是该属性的某一属性值。树的边是逻辑判断的分支结’果。树的叶子节点都是类别标记。【33】 第4章决策树.图4.1决策树4.1.1基本算法构造决策树的方法是采用自上而下的递归构造。构造思路是,如果训练例子集合中的所有例子是同类的,则将之作为叶子节点,节点内容即是该类别标记。 否则,根据某种策略选择一个属性,按照属性的各个取值,把例子集合划分为若干子集合,使得每个子集的所有例子在该属性上具有同样的属性值。然后再依次递归处理各个子集。这种思路实际上就是“分而治之"(divide and conquer)的道理。 决策树归纳的基本算法是贪婪算法,它以自顶向下递归的各个击破方式构造决策树。著名的决策树归纳算法为ID3,它的基本策略如下: 1.树以代表训练样本的单个节点开始。2.如果样本都在同一个类,则该节点成为树叶,并用该类标记。否则,算 法使用成为信息增益的基于嫡的度量作为启发信息,选择能够最好地将样本分类的属性。该属性成为该节点的“测试刀或“判定"属性。在该算法中,所有的属性必须都是离散的,即取离散值。对于值连续的属性必须进行离散化处理。3.对测试属性的每个己知的值,创建一个分枝,并据此划分样本。4.算法使用同样的过程,递归地形成每个划分上的样本判定树。一旦一个 属性出现在一个节点上,就不必再考虑该节点的任何后代。 5.递归划分步骤仅当下列条件之一成立时停止:1)给定节点的所有样本属于同一类。21没有剩余属性可以用来进一步划分样本。在此情况下,使用多数表决。这 涉及将给定的节点转换成树叶,并用样本中的多数所在的类标记它。换一种方式, 可以存放节点样本的类分布。3)分枝test attribute=吩没有样本。在这种情况下,以样本中的多数类创建一个树叶。以上即构造决策树的基本思想,伪代码如下: 第4章决策树Proceclum BuildTree(D){在D中计算SI,求解根节点N的分支方案;初始化根节点:Ⅲ(节点N满足分支条件){ 选择最好的分支方案将D分为Di: BuildTreeZ(D i); BuildTreeZ(D2);} ,4.1.2属性选择 构造好的决策树的关键在于如何选择好的逻辑判断或属性。对于同样一组例 子,可以构造很多决策树能符合这组例子。一般而言,树越小,则决策树的预测能力越强。要构造尽可能小的决策树,关键在于选择恰当的逻辑判断或属性。由于构造最小的树比较困难,因此只能采取用启发式策略选择好的逻辑判断或属 性。属性选择依赖于各种对例子子集的不纯度度量方法。不纯度度量方法包括信 息增益、信息增益比、Gini.index等等。.不同的度量有不同的效果,特别是对于多值属性。这种信息理论方法使得对 一个对象分类所需的期望测试数目达到最小,并确保找到一棵简单的树。 设S是s个数据样本的集合。假定类标号属性具有m个不同值,定义m个 不同类~(i―l,...,m)。设墨是类~中的样本数。对给定样本分类所需期望信息由下式给出:J!_』瓴,屯,...,%)=一艺昂Iog(p』) 埘其中只是样本属于q的概率,并用长,s估计。件1)设属性^再具有k个不同值{al,a2矿.。ak)。可以用4划分为k个子集 {sl,S2…,sk);其中JJ包含S中这样一些样本,它们在4上具有值4J,ls,蔓七如 果4选作测试属性(最好的分裂属性),则这些子集对应于由包含集合S的节点生长出来的分枝。 第4章决策树设I是子集o/中类L1的样本数,根据由A划分成子集的熵(entropy)或期望信息由下式给出:E(4)=∑坐孚与(sl,..以)扣IJ其中,项生±生充当第J个子集的权,并且等于子集(即4的值为口,)中的样本暑’(4-2)个数除以s中的样本总数。熵值越小,子集划分的纯度越高。在4上分枝将获得的编码信息是:Gain(4户I(墨,岛…‰)一E(4)(4―3)换句话说,Gain(4)是由于知道属性4的值而导致的熵的期望压缩。决策树归纳算法(贪心算法)计算每个属性的信息增益。具有最高信息增益的 属性选作给定集合S的测试属性。创建一个节点,并以该属性标记,对属性的每 个值创建分枝,并据此划分样本。决策树归纳算法已经在广泛领域中用于分类。 这种归纳学习和分类的效率很高,速度很快,适用于各种知识领域。 4.1.3噪声与剪枝 实际得到的数据可能不是完美的,即在某些属性字段上缺值,或缺少必须的 数据,从而造成数据不完整。有时数据含有噪声甚至是错误的。基本的决策树构 造算法没有考虑噪声,生成的决策树完全与训练例子拟合.有噪声情况下,完全 拟合将导致过分拟合,即对训练数据的完全拟合反而不具有很好的预测性能。剪 枝是一种克服噪声的技术,同时它也能使树得到简化而变得更容易理解。 有两种剪枝方法,向前剪枝和向后剪枝,也称先剪枝方法(forward.pruning) 和后剪枝方法(backward-pruning)。向前剪枝方法是,在生成树的同时决定是继续 对不纯的训练子集进行划分还是停机。向后剪枝方法有两个阶段:拟合.化简,首 先生成与训练数据完全拟合的决策树,然后从树的叶子开始剪枝,逐步向根的方 向剪。剪枝时要用到一个测试数据集合,如果存在某个叶子剪去后能使得在测试 集上的准确度或其它准确度不降低,则除去该叶子。理论上讲,向后剪枝好于向 前剪枝,但计算复杂度大。剪枝过程中一般要涉及一些统计参数或阈值,如停机 阈值。剪枝并不是对所有的数据集都好,就像最小树并不是最好(具有最大的预测 率)的树。当数据稀疏时,要防止过分剪枝。从某种意义上讲,剪枝也是一种偏向, 对有些数据效果好而有的数据则效果差。 4.1.4决策树优化 第4章决策树产生一棵枝节较为丰富的树之后,需要有选择性地修剪,得到一个精简的子 树序列。在设计过程中考虑到树的复杂度,定义了衡量复杂度的函数兄(刃:I―I玛F)=月(刁+刮列(¨)其中R(1)为树T的误分类率,a2 0为复杂度。也就是说,树的复杂度是根 据确定的叶节点数自来衡量的。a为每一叶节点复杂度的衡量。设构造的初始决策树为k修剪的目标就是,对每一个a找到子树r(印≤‰,使得。兄(丁(印)=minR.(r)(4?5)修剪过程得到一个有限树序列:以4)2喜量净…-,%)五,五,...,T.{ro t},修剪过程得到一个有限树序列:矧占当l一本身为优化树时,a值很小;而当1~被修剪得只剩根节点时a值很大。1t,1:,..‘,T.,其中』t与口。或时的优化树相一致。在这些树中间,选出具有最低估计误分类率 的树作为最优树。该方法的缺陷为:第一,仅允许每一内部节点处具有单一特征或 线性组合;第二,计算非常耗费时间,需要产生许多中间树;最后,在子树序列中, 可能根本就没有优化的树[33】。 4.1.5子树复制及碎片问题 由于属性间存在相关性和多项性,即一个结果可由多个条件决定。出现这种情况时,生成的决策树会有子树复制问题。复制现象导致决策树不易理解,同时还导致碎片问题,即当树很大时,会造成数据集的划分越来越小,从而预测越差。 解决子树复制和碎片问题的方法主要是采取特征构造。特征构造一般计算复杂度 高,为了降低特征构造的代价,先是选取重要特征或去除不相关特征形成初始相 关特征集,再在该初始特征集的基础上构造新的复杂特征。 本文所用决策树修剪方法是由澳大利亚科学家Q曲alan J.1L提出的,从1986 年他发表关于决策树的学术论文开始,经历数十年的完善,至1996年完成了CA5 程序,在学术界引起很大的轰动。作者开发的数据挖掘程序正是学习并优化了CA5 程序中构造与修剪决策树的方法。4.2提取规则37 第4章决策树把标准故障样本数据用数据库二维表格的形式存储,运用构造树的算法,即可得到一棵故障树。在得到决策树之后,可以提取决策树表示的知识,并以IF.THEN形式的分类规则表示。从树根开始,遍历整棵树,对每条从根到树叶的路径创建一个规则。这样,如果故障样本齐全,选用的样本数据能满足实际机组状态的微小波动, 那么我们就可以得到标准故障分类规则库。对于产生的决策树,沿着给定路径上 的每个“属性值”对形成规则前件的一个合取项。决策树的叶节点包含类预测, 形成规则后件。当给定的树很大时,IF.THEN规则易于理解,也便于实际应用。 而决策树本身当树大的时候不太直观,所以一般情况下,在得到决策树后,都把 决策树转化为规则的形式。(X∽为联合随机分布变量,其中,q维向量X为模式或特征向量,Y为X的相关类。y的组件为一些特征信息。如果它的特征是从有序集中取值则y称 有序或数字模式。反之,如果它的特征是从没有自然顺序的集合中取值则称×为 .无条件模式。有序或数字模式的特征可以是离散值,也可以连续值。为了简单化 我们假定X为连续有序类型。更深一步,让.y从弹空间取值。Y向量取值{1,2, 3,…,J},其中涉及到J个类。通常决策树分类的目的就是,通过观测来估计Y。 每条规则的准确率需要使用训练样本来估计。决策规则d(?)为从卯到f1,2,3,…J)的映射函数,d(X)表示特征向量X的类标记。d的误分类率标记为:R’(d)=以d(Xr)≠砷(4-6)其中P表示概率。定义所需标记样本如下:L={(一,‘),再=1,2,,..,册(4-7)通常所需标记样本分为两部分:训练集样本∥’和测试集样本色n。通常来讲 D”的样本数目占总样本数的2/3,而应2’占总样本数的1/3。由于实际误分类率 F(d)难以计算,所以通常是由训练集或测试集来估计它的值。标记R(d)为估计 的误分类率。当训练集用于估计F(d)时,R(椰被称为矿(d)的替代估计。 当用测试集估计凡’(d)时,R(d)被称为R’(d)的测试样本估计值。无论按哪种 情况,误分类率都是通过误分类样本数占总体样本的百分比来进行简单的估计 的。一个估计误分类率的更复杂的方法是k次折叠交叉确认法(k-foldgrossvalidation)。这里,数据集L被分成k个几乎相同的部分L,厶…山(通常k=lO)。 第4章决策树接着,L―r用于训练集,Lk用于测试集。下一步则发现k个部分中每一个测试集误分类率的估计值及 平均值。这里k_N(N为类样本的大小)。4.3具有丢失数据问题的处理此类问题属于数据样本表的预处理。以往的故障诊断系统,遇到有数据丢失 的分析样本,采取的基本方法是整个抛弃,在对于大数据量样本而且具有少量丢 失数据的情况而言这种方法是可行的。但是,如果数据样本中少量丢失的数据含 有重要信息,或数据表中信息较少,又存在很多遗漏信息时,采用这种方法就有可能造成重要特征信息的丢失。下面,提到几种实用的方法。1.均值填充法(Mean Completer) 将信息表中的属性分为数值属性和非数值属性来分别处理。如果遗漏的属性 值是数值型的,就根据该属性在其他所有实例的取值的平均值来补充该遗漏的属 性值:如果遗漏的属性值是非数值型的,就用该属性在其他所有实例上的取值次数 最多的值(出现频率最高的取值)来补充遗漏属性值。但这种方法不能保证补齐的效果。2.综合填充法(Combinat

我要回帖

更多关于 旅行商问题的数学模型 的文章

 

随机推荐