《数据挖掘技术的综述(优秀10篇)》由精心整编,希望在【数据挖掘】的写作上带给您相应的帮助与启发。
关键词:数据挖掘 大数据 市场营销 企业决策
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2014)02-0080-02
数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题。数据挖掘己广泛地应用到社会的各个领域和行业,如商业领域中的客户关系、产品生产、市场营销等;金融领域中的股票交易市场、投资评估等;天文学领域的气象预报、气象灾害预测等;教育领域的高校学生管理、高校毕业生就业分析、高校教学质量的评估等。可以说,数据挖掘实是处在知识创造过程中最核心的位置,因此做好数据挖掘工作具有十分重要的意义。
1 数据挖掘的定义和本质
对于数据挖掘一般有两种定义,从广义上讲,数据挖掘,又称数据库中的知识发现,是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程,就是从大型数据集中挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。从狭义上讲,数据挖掘则是指从特定形式的数据集中提炼知识的过程。
数据挖掘的本质是很偶然的发现非预期但很有价值的信息。这说明数据挖掘过程本质上是实验性的。数据挖掘的一个特定属性就是要处理的是一个大数据集。这就意味着,由于可行性的原因,我们常常得到的只是一个样本,但是需要描述样本取自的那个大数据集。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。
2 数据挖掘的发展背景
在这个信息爆炸的时代,如何从信息的大海中发现及时有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为垃圾,甚至成为包袱。因此,面对人们被数据淹没却饥饿于知识的挑战,数据挖掘和知识发现技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。
数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。激发数据挖掘的开发、应用和研究有如下四个主要的技术理由:(1)超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录;(2)先进的计算机技术,例如更快和更强大的计算能力和并行体系结构; (3)对巨大量数据的快速访问;(4)对这些数据应用精深的统计方法计算的能力。数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。
国内对数据挖掘的研究晚于国外。国家通过自然科学基金对数据挖掘的研究进行支持,很多科研单位和院校都在这个领域获得了丰硕成果,这些单位包括中科院、清华大学、中国科大、复旦大学等,他们的成果为我国在此领域的发展起到了重要作用,得到了学术界的高度重视。
3 数据挖掘常用的方法
利用数据挖掘进行数据分析常用的方法主要有分类分析、回归分析、聚类分析、预警分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。
(1)分类分析。客户细分需要进行客户特征分析,即用数据来描述或给出客户或潜在客户特征的分析过程。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。
(2)回归分析。如何使用数据挖掘来对不同的旨在保留客户的活动中进行建模将对整个客户保持工作起着重要的作用,这也就是流失模型价值所在。流失模型能预测账号在被激活后减少或停止使用一种产品或服务的行为。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。
(3)聚类分析。通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,更好地了解自己的客户,向客户提供更合适的服务。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。
(4)预警分析。数据挖掘方法可以为风险分析建立分类定位模型。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。风险分析是提品或服务时存在潜在损失的行业所特有的。常见的风险类型出现在银行业和保险业,银行在放贷时存在金融风险。利用风险分析可以预测一个对象如期还贷或不还贷的可能性。一种贷款如抵押贷款或汽车贷款是安全贷款,另一种贷款如信用卡贷款为不安全贷款。
(5)Web页挖掘。Web因其易于导航、方便链接,融图形、音频、视频信息于一体的优越特性,迅速流行于全球,所载信息量巨大。Web页挖掘是利用数据挖掘技术从万维网的海量信息和数据中提取各种有用模式和信息,其中涉及到Web技术、数据挖掘、计算机语言学、信息学等多个领域的专业知识。对于企业而言,可以通过Web页挖掘、收集与企业生存相关的社会环境信息、市场信息、竞争对手信息、客户信息等,及时对外部环境信息和内部经营信息作出反馈和决策,未雨绸缪,以最快的速度解决企业面对的各种危机和潜在问题。
4 数据挖掘的社会需求和应用
人类早已步入信息社会,信息的重要性毋庸置疑。如何能在信息的海洋中迅速提取那些于我有价值的信息是生存的必要本领和竞争的必要手段,这就需要进行数据挖掘。具体而言,数据挖掘的社会需求和应用主要有表现在四个方面,即辅助研究,改进生产流程,优化市场营销,提高竞争优势。
(1)辅助研究。数据挖掘的辅助研究功能主要表现在医药和生物研究领域。数据挖掘技术可以协助研究人员快速分析巨量的医学数据和医生诊断经验,发现隐藏在海量数据背后的新的、具有学术价值的医学信息,为新药的发现提供一种新的思路和方法,帮助科研人员在大的数据库中发现隐含的知识,更好、更快、更有效地决策,加快药物研发速度,提高药物研发水平。此外,数据挖掘理论中的序列模式分析和相似检索技术等,已经被认为是DNA分析的有效工具,研究者们正在研究如何利用该技术从已经测得的基因数据库中找出各种疾病特定基因序列模式。数据挖掘技术还可以应用到医学图像分析中,借助于这一技术,图像特征能够实现自动提取和模式识别。更加令人欣喜的是,数据挖掘技术在医疗行业的应用,不仅可以协助医生更加准确地对病人进行诊断,还能预测医疗试验、外科手术和药物治疗的效果,对于缓和医患关系,节省治疗成本等都能起到积极作用。
(2)改进生产流程。数据挖掘改进生产流程的功能主要体现在工业领域。目前,数据挖掘已经成功地应用于从晶片制造到咖啡烘焙等一般的生产流程,用领域非常广泛。数据挖掘在改进生产流程中的应用概括地讲就是提取出影响生产进度的因素,避免生产的非正常中断,优化成产,从而节约成本。首先是提取数据,这些数据既包括能产生正面结果的数据,也包括产生负面结果的数据。其次是选择决策树算法依据数据判断出最重要的变量,再经过审定保留那些具有预测能力的变量。最后是进行建模与评估,形成生产规则。需要注意的是,由于不同工厂间的具体情况不同,这些规则并不能从一家工厂直接复制到另外一家工厂,因此数据挖掘工作不是一劳永逸的,应在成功的基础上不断进行研究。
(3)优化市场营销。由于信息的爆炸式增长,商业领域累积的数据库越来越大,不仅占用空间,且无法直接增加价值,由此人们认识到大量数据并非就是大量的信息,数据分析与萃取势在必行。因此,数据挖掘技术从一开始就是为应用而产生的,且迅速应用到了市场营销领域。世界上许多具有创新性的公司都采用数据挖掘的方式改进产品的推广模式,改善营销、销售、顾客服务营运上的不足,寻找最有价值的客户,以最小的成本获取最大的利益。例如银行可以通过分析客户的银行账户余额、客户已拥有的银行产品以及所处地点和信贷风险等标准来评价记录档案,这些评价可用于确定客户购买某一具体产品的可能性,使得管理人员不必一一分析基础数据,大大提高了工作效率。对于零售商而言,可以利用数据挖掘技术收集并分析上百万个交易数据,为各分店进行每周和每日的销售预测,还可协助制订季度销售预测、用人计划、存货管理、年度预算等,甚至还能帮助为新的分店选址。以美国拥有1100多家分店、年销售额近110亿美元的Staples连锁零售商店为例,它就是运用数据挖掘方法成功对各家分店进行管理,它采用的数据包括历史销售数据、客户(包括商户和家庭)的统计数据、分店所处的地段特征及该地段的竞争水平等一系列海量数据。卡夫食品公司也是通过对拥有3000万客户资料的数据库进行深入挖掘,得以了解特定客户的兴趣和口味,并以此为基础向他们发送特定产品的优惠券,并为他们推荐符合客户口味和健康状况的卡夫产品食谱。
数据挖掘在市场营销中的应用是基于“消费者过去的行为是今后消费倾向的最好说明”这一基本假定,通过搜集和分析消费者消费行为的大量信息,以确定消费群体和个体的消费习惯、消费热点、消费层次和潜在的消费需求等,以此为基础,有针对性地进行特定内容的定向营销,不仅节约了营销成本,还大大提高了营销效果,为企业带来更多利润。
(4)提升竞争优势。在市场经济比较发达的国家和地区,许多公司都开始在原有信息系统的基础上通过数据挖掘对业务信息进行深加工,以构筑自己的竞争优势。数据挖掘在提升企业竞争优势上主要包括两个方面,一是提升企业自身实力,二是规避外部风险,具体来说主要包括分析企业内部经营信息,搜集外部环境信息,创新优质产品和服务,改善和维护客户关系,进行企业供应链管理,识别风险和欺诈,控制和化解危机等。
5 数据挖掘需要注意的问题
(1)对数据的要求。由于大多数运营商面临的数据在质量、完整性和一致性方面存在很多问题,因此在利用这些数据进行数据挖掘之前,必须先对其进行抽取、净化和处理。
(2)对人员素质的要求。统计数据挖掘分析系统必须与实际紧密相联,在数据挖掘的多个环节中,都要求使用和分析人员不仅仅具备数据挖掘的相关知识,还必须有对企业经营管理流程和行业背景的深刻理解。
(3)数据挖掘的有效性。数据挖掘存在较长的应用周期,数据挖掘所发现的知识和规则必须让决策者理解并采纳,才能将知识转化为生产力,并通过实践不断检验和完善数据挖掘所产生的模型和规则,以使模型更具实用价值。
(4)数据库类型的多样性。一些数据库可能包含复杂的数据对象、超文本和多媒体数据、空间数据、时间数据或事务数据。由于数据类型的多样性和数据挖掘的目标不同,指望一个系统挖掘所有类型的数据是不现实的。为挖掘特定类型的数据,应当构造特定的数据挖掘系统。同样,对于不同类型的数据,应当有不同的数据挖掘系统。
(5)数据挖掘的局限性。虽然数据挖掘工具使用户不必再掌握高深的统计分析技术,但用户仍然需要知道所选用的数据挖掘工具是如何工作的,它所采用的算法的原理是什么。选用的技术和优化方法会对模型的准确度和生成速度产生很大影响。数据挖掘永远不会替代有经验的商业分析师或者管理人员所起的作用,它只是提供一个强大的工具。每个成熟的、了解市场的公司都已经具有一些重要的、能产生高回报的模型,这些模型可能是管理人员花了很长时间,作了很多调查,甚至是经过很多失误之后得来的。数据挖掘工具要做的就是使这些模型得到的更容易,更方便,而且有根据。
6 结语
总之,数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动扮演着越来越重要的角色。只有从数据中有效地提取信息,从信息中及时地发现知识,才能为人类的思维决策和战略发展服务。
参考文献
[1]陈文伟,等。数据挖掘技术[M].北京:北京工业大学出版社,2002.
[2]朱明,数据挖掘。合肥:中国科技大学出版社2002.
[3]陈京民,等。数据仓库与数据挖掘技术[M].北京:电子工业出版社,2002.
[4]毛国君,等。数据挖掘原理与算法[M].北京:清华大学出版社,2005.
关键词:大数据 数据挖掘 数据分析
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2015)11-0000-00
随着我国网络技术的快速发展,大数据挖掘技术越来越成为影响影响网络信息发展的重要因素,而大数据挖掘技术的主要内容以及经常采用的主要方法直接影响了我国未来网络技术的发展方向。因此,这一技术的发展直接影响了网络的发展。本文从大数据挖掘技术的角度出发,研究大数据挖掘技术的应用情况。
1大数据挖掘技术的概念分析
大数据挖掘及时是KDD的一个重要的过程,这种技术是从许多数据中还有一些不完整的应用中,以及一些比较纯净的应用或者是模糊不清的应用中随机抽取出来的。这些抽取出来的数据都是潜在存在的,但是不为人所发现的信息内容。那么什么叫做KDD(Knowledge Discovery In Database)呢?KDD是发现知识的一个过程。
通常情况下,大数据挖掘系统主要包含七方面的内容:用户图形界面接口、模式评估、数据挖掘引擎、数据库或数据仓库服务器、数据基地、数据仓库以及知识储备库(如图1所示)。由图1可知,数据库还有数据仓库服务器有大量的信息和数据,这些数据对很多用户都有着吸引力。图1中的知识储存库是一个简单的应用,用这个知识储存库来进行知识的探索和评价,从而确定总体的模式是不是有意义。数据挖掘引擎是整个大数据挖掘系统中十分重要的组成内容。它能够对数据的特征、关联、类别、价值等进行分类。模式评估的主要功能是在对数据进行评价的同时还要和大数据挖掘技术相互联系,从而把大数据挖掘的技术全面的应用到系统中。模型的进口是用户图形界面的接口。能够方便使用者使用这一模型。并且利用大数据挖掘技术进行信息的查询和分析。
2大数据挖掘技术的应用与挑战
2.1挖掘对象
大数据的挖掘技术面对的主要对象为大的数据库。这样一来能够有效的进行信息的搜索和查询。
2.2大数据挖掘技术体现形式局限性
当前,大数据挖掘技术在处理数据以及信息的时候所使用的方法比较有限,具有一定的局限性。通常情况下,这种技术能够分析数值型的数据,数据内容比较简单,可是仍然不能够对文本文件、公式、图片等这种没有结构或者是无结构的数据形式开展数据挖掘的工作。
2.3使用人员参加的过程和相关领域的信息
通常情况下,大数据挖掘技术的过程常常要进行信息和数据的交流。当前,所实用的数据挖掘系统很难让使用者参与到信息以及数据的筛选过程中。使用人员自身的知识能力以及经验对挖掘的开展速度有着直接的影响。而且能够顺利的获取大量的利用度十分高的数据信息等。
2.4进行知识的表现和内容的解析
很多应用程序中主要的内容都是用户自己发现并分析出来的知识。这就需要大数据技术在挖掘信息的时候不但要有分析数字还有符号的能力还需要对图片、语言等理解分析的技术。
2.5帮助保护知识内容和信息的更新换代
伴随着知识量的增多,以往旧的知识会逐渐的失去自己的作用,被新的知识内容所取代。所以知识需要不断的保护和进行及时的更新换代。当前采取的主要更新知识的方法包括维护关联规则的增量算法等。
2.6支持局限性的系统发展
当前的大数据挖掘系统还不能够在广大的系统平台上进行推广使用。一些应用程序是应用在PC上面的,还有一些应用是针对大型的主机系统中的。除此之外,还有一些是专门针对用户的。
3结语
数据挖掘技术是近几年新产生的网络技术,可是它的广泛应用性受到了很多公司以及研究人员的喜爱。这些年来,伴随着时间的推移以及网络技术的不断发展大数据挖掘技术不断的被更新,开发,而且在金融、管理、教学等行业中都得到了广泛的应用。我相信随着网络技术的不断发展,大数据挖掘技术的应用面将会越来越广。
参考文献
[1]吕竹筠,张兴旺,李晨晖 等。信息资源管理与云服务融合的内涵即共性技术体系研究[J].情报理论与实践,2012,35(09):26-32.
[2]《中国电子科学研究院学报》编辑部。大数据时代[J].中国电子科技研究院学报,2013(01):41-43.
[3]淮晓永,熊范伦,赵星。一种基于粗集理论的增量式分类规则知识挖掘方法。南京大学学报(自然科学版,计算机专辑),2000,(11):203~209.
[4]方开泰。实用多元统计分析[M].上海:华东师范大学出版社,1992:189~193.
关键词数据挖掘;Web数据挖掘;相关技术
引言
随着Internet 的进一步发展和完善,各种基于Internet的应用业务也如雨后春笋般的发展起来,例如网上商店、网上银行、远程教育、远程医疗等。我们应该看到Internet在给我们带来机遇的同时也带来了挑战,它使得WWW 上的一些主要工作, 例如Web 站点设计、Web 服务设计、Web 站点的导航设计、电子商务等工作变得更为复杂更为繁重。对于网站经营方来说,他们需要更好的自动辅助设计工具, 可以根据用户的访问兴趣、访问频度、访问时间动态的调整页面结构,改进服务, 开展有针对性的电子商务以更好的满足访问者的需求。解决这种需求的一个有利的工具就是Web 数据挖掘。
1. Web 数据挖掘概述
Web挖掘是一项综合技术,涉及Web、数据挖掘、计算机语言学、信息学等多个领域。Web挖掘就是从Web 文档、Web活动中抽取感兴趣的、潜在的有用模式和隐藏信息。Web 挖掘是指从大量Web文档结构和使用的集合C中发现隐含的模式p。如果将C看作输入,p看作输出,那么Web挖掘的过程就是从输入到输出的一个映射ξ:Cp
Web挖掘从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似,都是在对大量的数据进行分析的基础上,作出归纳性的推理,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,作出正确的决策的过程。但是对Web 进行有效的资源和知识挖掘面临极大的挑战:(1)对有效的数据仓库和数据挖掘而言,Web 似乎太庞大了。(2)Web页面的复杂性高于任何传统的文本文件。(3) Web是一个动态性极强的信息源。(4) Web上的信息只有很小的一部分是相关的或有用的。这些挑战推动了如何有效地发现和利用Internet 的资源的研究工作。
1.1 与传统的数据挖掘相比较
1.1.1 数据源具有很强的动态性。
1.1.2 挖掘目的的模糊性。
1.1.3 数据类型的多态性。
1.1.4 数据信息的分布性、多维性。
1.2 Web 数据的特点
1.2.1 数据量巨大
Internet把分布于世界不同位置的电脑(服务器)连接了起来,每个电脑上都存有丰富的数据,这些数据涉及各种不同的行业和领域,又由于连接于Internet 的电脑数量非常巨大。
1.2.2 异构数据库环境
每一个Web站点都可以看作是一个数据源,由于各站点是相互独立的, 之间除了可以互相访问之外并没有任何关系,所以每个站点之间的信息及信息组织方式都是不相同的,这就构成了一个巨大的异构数据库环境。
1.2.3半结构化的数据结构
Web上的数据与传统数据库中的数据不同之处还在于传统数据库都有一定的模型,可以根据数据模型来对具体的数据进行描述,而Web 站点中的数据不存在统一的模型,各站点都是独自设计,并且站点中的数据是处于不停变化之中的。
2.Web数据挖掘相关技术
Web 挖掘应用非常广泛,对Web挖掘相关技术的研究也很多,针对上述不同类别的Web 挖掘,有不同的相关技术,下面分别介绍。一般地,Web挖掘可以分为三类:Web 内容挖掘(Web content mining)、Web 结构挖掘(Web structure mining)、和Web 使用模式的挖掘(Web usage mining) 。
2.1技术分类
2.1.1Web内容挖掘
Web内容挖掘是从文档内容或其描述中抽取知识的过程。主要有两种策略:直接挖掘文档的内容,或在其它工具搜索的基础上进行改进。采用第一种策略的有针对Web 的查询语言WebLOG,利用启发式规则来寻找个人主页信息的AHOY等。采用第二种策略的方法主要是对搜索引擎的查询结果进行进一步的处理,得到更为精确和有用的信息。属于该类的有WebSQL,及对搜索引擎的返回结果进行聚类的技术等。
2.1.2 Web 结构挖掘
Web 结构挖掘是从WWW的组织结构和链接关系中推导知识。由于文档之间的互连WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序发现重要页面。这方面的代表有PageRank〗和CL EVER,此外,在多层次Web数据仓库(MLDB)中也利用了页面的链接结构。
2.1.3 Web 使用挖掘
Web使用挖掘的主要目标是从Web 的访问记录中抽取感兴趣的模式。WWW 中每个服务器保留了访问日志,记录关于用户访问和交互的信息。分析这些数据可以帮助理解用户的行为从而改进站点的结构,或为用户提供个性化的服务。
2.2 Web 数据挖掘研究领域及发展
2.2.1 Web 数据挖掘的研究领域类型根据对Web 数据的感兴趣程度不同,Web 挖掘一般可以分为三类: 网络内容挖掘(Web Content mining) 、网络结构挖掘(Web structure mining) 、网络用法挖掘(Web usage Mining)
2.2.2 网络内容挖掘网络信息内容是由文本、图像、音频、视频、元数据等形式的数据组成的。网络内容挖掘就是一个从网络信息内容中发现有用信息的过程。由于网络信息内容有很多是多媒体数据, 因此网络内容挖掘也将是一种多媒体数据挖掘形式。
2.2.3 网络结构挖掘网络结构挖掘就是挖掘Web潜在的链接结构模式。通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类,并且由此可以获得有关不同网页间相似度及关联度的信息。网络结构挖掘有助于用户找到相关主题的权威站点。
2.2.4网络用法挖掘网络内容挖掘和网络结构挖掘的挖掘对象是网上的原始数据,而网络用法挖掘面对的则是在用户和网络交互的过程中抽取出来的第二手数据,包括网络服务器访问记录、服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问方式等。通过网络用法挖掘,可以了解用户的网络行为数据所具有的意义。
2.3 Web数据挖掘的四个步骤
2.3.1查找资源:任务是从目标Web 文档中得到数据。
2.3.2信息选择和预处理:任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。2.3.3模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。
2.3.4模式分析: 验证、解释上一步骤产生的模式。
3. Web数据挖掘的应用
3.1 Web挖掘在搜索引擎方面的应用
通过对网页内容的挖掘,可以实现对网页的聚类和分类,实现网络信息的分类浏览与检索。运用Web挖掘技术改进关键词加权算法,提高网络信息的标引准确度, 改善检索效果。参与搜索服务市场的有多家实力企业,如Google、雅虎(Yahoo!) 及微软(Microsoft) 等巨头企业, 以及若干规模较小但有特定市场区隔或技术者如dTSearch、Copernic 等Google 提供更多的技术,会自动找寻常用的字词,尽量缩短搜索时间,提高效率。
3.2Web挖掘在电子商务方面的应用
Web挖掘这方面的应用可以为企业更有效的确认目标市场、改进决策获得更大的竞争优势提供帮助,从中可得到商家用于特定消费群体或个体进行定向营销的决策信息。电子商务方面的Web挖掘功能主要是如下几个方面:首先,客户分类和客户聚类。对Web 的客户访问信息进行挖掘,对客户进行分类分析。应用聚类分析对客户进行分组, 并且分析组中客户的共同特征, 这样就可以让商家更好了解自己的客户, 向客户提供更有针对性的服务。其次是找到潜在的客户。在对Web 的客户访问信息的挖掘中, 利用分类技术可在因特网上找到未来的潜在客户。最后保留客户的驻留时间, 对于客户而言,在网上每个销售商对于客户来说都是一样的, 如何尽量使客户在自己的网上驻留更长的时间, 这样对于商家才能有更多客户和更大的利润空间。
3.3 Web 数据挖掘在网络教育中的应用
教育网络化的趋势不仅为学生提供了便利的学习方式和广泛的选择,也为学校提供了更加深入了解学生需求信息和学生行为特征的可能性。由于受教育对象个体之间存在着极大的差异性,网络教学也必须是一种适应个别化学习需求的个性化教学。这种个性化教学的提供,是通过将传统的数据挖掘(Data Mining) 同Web 结合起来,进行Web 数据挖掘,即从Web 文档和Web 活动中抽取学生感兴趣的潜在的有用模式和隐藏的信息,作为对学生提供个性化教学服务的依据,协助管理者优化站点结构,提高站点效率,更好地为网络教育服务。
3.4在网站设计中的应用
在网站设计方面中的应用,主要是通过对网站内容的挖掘,特别是对文本内容的挖掘,可以有效地组织网站信息,如采用自动归类技术实现网站信息的层次性组织;通过对用户访问日志记录信息的挖掘,把握用户感兴趣的信息,从而有助于开展网站信息推送服务以及个人信息的定制服务,吸引更多的用户。
4. 结束语
社会的发展越来越离不开信息的传播与使用,在数据量急剧增长的情况下如何高效地检索出使用者需要的信息更加显得重要,Web 数据挖掘正是因为满足了这方面的需要才能获得如此迅速的发展, Web 挖掘技术也将成为重要的研究课题和方向。
参考文献
[1] 曼丽春, 朱宏, 杨全胜。 Web 数据挖掘研究与探讨[J].现在电子技术2005 (8) :3~6
[2] 夏火松。 数据仓库与数据挖掘技术[M]. 科学出版社,2004.207- 227.
[3] Jiawei Han,Micheline Kamber.DataMining:Concept and Techniques[M].Morgan Kaufmann Publishers,Inc 2001.272- 312.
[4] 陈文伟。黄金才。赵新昱。数据仓库与数据挖掘技术[M].北京:北京大学出版社,2002.1- 14.
数据挖掘(DataMining,DM),是随着数据库和人工智能发展起来的新兴的信息处理技术。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。
2、数据挖掘技术
2.1关联规则方法
关联规则是一种简单,实用的分析规则,描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,所挖掘出的关联规则量往往非常巨大,但是。并不是所有通过关联得到的属性之间的关系都有实际应用价值,对这些关联规则进行有效的评价。筛选出用户真正感兴趣的。有意义的关联规则尤为重要。
2.2分类和聚类方法
分类就是假定数据库中的每个对象属于一个预先给定的类。从而将数据库中的数据分配到给定的类中。而聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异。分类和聚类的区别在于分类事先知道类别数和各类的典型特征,而聚类则事先不知道。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价。
2.3数据统计方法
使用这些方法一般首先建立一个数据模型或统计模型,然后根据这种模型提取有关的知识。传统的统计学为数据挖掘提供了许多判别和回归分析方法。贝叶斯推理、回归分析、方差分析等技术是许多挖掘应用中有力的工具之一。
2.4神经网络方法
神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。这些优点使得神经元网络非常适合解决数据挖掘的问题。因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类;用于分类、预测和模式识别的前馈式神经网络模型;用于联想记忆和优化计算的反馈式神经网络模型;用于聚类的自组织映射方法。新晨
2.5决策树方法
决策树学习是一种通过逼近离散值日标函数的方法,把实例从根结点排列到某个叶子结点来分类实例。叶子结点即为实例所属的分类,利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的字段。建立决策树的一个结点,再根据字段的不同取值建立树的分支;在每个分枝子集中,重复建立树的下层结点和分支的过程,即可建立决策树。
关键词:数据挖掘技术;Web;应用;
中图分类号:TP319文献标识码:A 文章编号:1674-098X(2015)05(a)-0000-00
所谓数据挖掘,就是在大量的、随机的、无关的、不完全的数据中找出共同点,提炼有价值的规律,从而有利于企业利用这些规律进行决策,获得超额利润。而基于Web的数据挖掘技术,是指在HTML文档中或相关的服务中借助数据挖掘技术提取对用户有价值的信息。
1 基于Web数据挖掘技术的原理和分类
1.1 基于Web数据挖掘技术的原理
基于Web数据挖掘技术主要利用统计学原理把Web页面中用户访问的信息内容和超链接结构等进行统计分类,然后总结出这些数据的规律和特征,并把这些大量的数据进行筛选和过滤,从中挖掘出这些数据的潜在联系,让企业获得用户在访问网页时深层次的规律。
1.2 基于Web数据挖掘技术的分类
基于Web数据挖掘技术按照其技术原理可以分为三类:(1)、内容挖掘。这里的“内容挖掘”是指把Web网页中数字,文字,表格,文档等显示的数据信息和其它隐示的数据信息整理并挖掘出来。(2)、使用挖掘。当用户通过浏览器访问网页内容后,该网页所在的服务器会自动把这些访问的行为记录在访问日志上,而通过分析这些访问日志就可以掌握用户在该网页中的一些需求和动向,这就是“使用挖掘”的作用。所以通过使用挖掘可以掌握用户的行为动向,有利于提高网站的收益或网站的点击率。(3)、结构挖掘。数据挖掘中的结构挖掘是指分析Web页面之间的超链接结构关系,从中找到Web页面结构的有用模式及权威网页。
2 基于Web数据挖掘技术分析
2.1 路径分析技术
网络中的信息是巨大的,因此人们不可能一下子就找到自己需要的内容,总是要从一个页面链接到另一个页面,再从这个页面链接到其它页面。人们的这种访问路径会被记录在服务器的日志文件中。路径分析技术就是分析这些存有路径信息的日志文件,分析后的结果有利于帮助网站管理员根据大多数用户的需求改善网站的结构。
2.2 分类分析技术
分类分析技术借助对示例数据的详细分析建立一个分析的模型,再使用这个模型对网上的众多数据进行分类描述。使用分类分析技术可以在网络销售中向一个用户推荐他可能喜爱的相关产品。
2.3 聚类技术
聚类技术,就是把大量的用户访问数据,如用户喜欢的商品,以及访问网页的用户本身的信息等进行分析整理,然后按照一定的规则对它们进行分类,并给出该类别的特征描述。例如在网络营销中聚类技术帮助企业把客户分成不同的群体,并给出这些群体的喜好和需求,以便企业根据这些需求调整业务内容以满足不同的客户群体。
2.4 关联规则技术
关联规则技术通过分析用户在网站上的访问记录建立关联模型,可以根据用户的习惯和喜好为用户提供方便快捷的访问方式,也可以为用户推荐喜爱的商品或服务。
3 基于Web数据挖掘技术的应用
3.1 在远程教育中的应用
传统的教育方式没有注重学生的个体差异性,也不可能给每一个学生制定一套教学方案。但是在应用了数据挖掘技术的远程教育方式中,利用学生在网站的学习情况,通过数据挖掘技术可以为学生推荐适合他的教学方案,真正做到了“因材施教”,“以学生为中心”。而且利用分类分析数据挖掘技术、聚类数据挖掘技术和关联规则数据挖掘技术还可以对学生和教师进行分类和关联,这样可以为学生推荐适合他,同时也是学生喜欢的教师。数据挖掘技术在学生的学习过程中有利于学生快速的检索需要的课件资源和学习内容。
3.2 在电子商务中的应用
随着网络技术的迅速发展,电子商务已经与人们的生活密不可分。将基于Web数据挖掘技术应用在电子商务中,可以帮助企业获得及时、准确的商业信息和客户信息,帮助企业制定正确的商业发展目标,从而获得丰富的利润。
(1)、为企业定制正确的商业发展目标。在企业制定自己的商业发展目标之前需要先考察市场,掌握商品的市场动向,了解企业自身在同行业中的市场地位。采用基于Web数据挖掘技术帮助企业快速、准确地完成了上述工作,有利于企业定制商业发展目标。
(2)、提高了客户的满意度。基于Web的数据挖掘技术可以帮助企业分析客户信息和客户行为,掌握客户喜爱的商品类别,挖掘客户潜在的消费意向,为客户提供满意的服务。
(3)、提高了企业的资金使用效率。基于Web数据挖掘技术可以对企业的库存,商品交易情况,财务报表等信息进行分析后,为企业提供一份资金分配策划单,从而保证企业购买的都是畅销商品不会造成大量的库存,提高了企业的资金使用效率。
(4)、延长用户访问网页的时间。人们在网上购物时会感觉所有的商品都是一样的,没有区别,因为它们都是以网页的形式存在的。所以如果企业希望有良好的销售业绩,就需要用户在企业的网页上停留更多的时间,因为用户停留的时间越长,越有可能购买商品。企业可以利用数据挖掘技术掌握用户的习惯和喜好,为用户提供方便快捷的访问方式,这些快捷方式都是根据用户的喜好推荐的商品,因此用户愿意花费更多的时间在这个Web页面里。
(5)、挖掘潜在的商机。企业利用基于Web数据挖掘技术对服务器的日志文件进行分析和处理,可以将用户分类,并给出相应的描述。如果一个新的用户来到企业的网站时,可以利用前面的分类结果对这个新用户提供个性化的服务,投其所好,挖掘潜在的商机。
除此之外,基于Web数据挖掘技术在医疗、金融、通讯等领域也得到了比较广泛的应用,而且比较成熟,但是在电子商务领域中Web数据挖掘技术还处于起步阶段,有很多问题需要人们进一步去探索,相信随着网络技术的迅速发展,基于Web数据挖掘技术在电子商务领域中会有更大的发展空间。
参考文献
关键词:大数据时代;数据挖掘技术;应用
大数据是对全球的数据量较大的一个概括,且每年的数据增长速度较快。而数据挖掘,主要是从多种模糊而又随机、大量而又复杂且不规则的数据中,获得有用的信息知识,从数据库中抽丝剥茧、转换分析,从而掌握其潜在价值与规律。所以大数据时代下的数据处理技术要求更高,要想确保数据处理成效得到提升,就必须切实加强数据挖掘技术教学工作的开展,才能更好地促进数据处理职能的转变,提高数据处理效率,优化学生的学习成效。以下就大数据时代下的数据挖掘技术教学做出如下分析。
1大数据时代下数据挖掘技术的基础教学方法分析
数据挖掘的过程实际就是对数据进行分析和处理,所以其基础就在于数据的分析方法。要想确保分析方法的科学性,就必须确保所采用算法的科学性和可靠性,获取数据潜在规律,并采取多元化的分析方法促进问题的解决和优化。以下就几种常见的数据分析教学方法做出简要的说明。一是归类法,主要是将没有指向和不确定且抽象的数据信息予以集中,并对集中后的数据实施分类整理和编辑处理,从而确保所形成的数据源具有特征一致、表现相同的特点,从而为加强对其的研究提供便利。所以这一分析方法能有效的满足各种数据信息处理。二是关联法,由于不同数据间存在的关联性较为隐蔽,采取人力往往难以找出其信息特征,所以需要预先结合信息关联的表现,对数据关联管理方案进行制定,从而完成基于某种目的的前提下对信息进行处理,所以其主要是在一些信息处理要求高和任务较为复杂的信息处理工作之中。三是特征法,由于数据资源的应用范围较广,所以需要对其特征进行挖掘。也就是采用某一种技术,将具有相同特征的数据进行集中。例如采用人工神经网络技术时,主要是对大批量复杂的数据分析,对非常复杂的模式进行抽取或者对其趋势进行分析。而采取遗传算法,则主要是对其他评估算法的适合度进行评估,并结合生物进化的原理,对信息数据的成长过程进行虚拟和假设,从而组建出半虚拟、半真实的信息资源。再如可视化技术则是为数据挖掘提供辅助,采取多种方式对数据的挖掘进行指导和表达[1]。
2大数据时代数据挖掘技术教学要点的分析
2.1数据挖掘技术流程分析
在数据挖掘教学过程中,其流程主要是以下几点:首先做好数据准备工作,主要是在挖掘数据之前,就引导学生对目标数据进行准确的定位,在寻找和挖掘数据之前,必须知道所需数据类型,才能避免数据挖掘的盲目性。在数据准备时,应根据系统的提示进行操作,在数据库中输入检索条件和目标,对数据信息资源进行分类和清理,以及编辑和预处理。其次是在数据挖掘过程中,由于目标数据信息已经被预处理,所以就需要在挖掘处理过程中将其高效正确的应用到管理机制之中,因而数据挖掘的过程十分重要,所以必须加强对其的处理。例如在数据挖掘中,引导学生结合数据挖掘目标要求,针对性的选取科学而又合适的计算和分析方法,对数据信息特征与应用价值等进行寻找和归纳。当然,也可以结合程序应用的需要,对数据区域进行固定,并在固定的数据区域内分类的挖掘数据,从而得到更具深度和内涵以及价值的数据信息资源,并就挖掘到的数据结果进行分析和解释,从结果中将具有使用价值和意义的规律进行提取,并还原成便于理解的数据语言。最后是切实加强管理和计算等专业知识的应用,将数据挖掘技术实施中进行的总结和提取所获得的数据信息与评估结果在现实之中应用,从而对某个思想、决策是否正确和科学进行判断,最终体现出数据挖掘及时的应用价值,在激发学生学习兴趣的同时促进教学成效的提升。
2.2挖掘后的数据信息资源分析
数据信息资源在挖掘后,其自身的职能作用将变得更加丰富,所以在信息技术环节下的数据挖掘技术随着限定条件的变化,而将数据挖掘信息应用于技术管理和决策管理之中,从而更好地彰显数据在经济活动中的物质性质与价值变化趋势,并结合数据变化特点和具体的表现规律,从而将数据信息的基本要素、质量特点、管理要求等展示出来,所以其表现的形式十分丰富。因而在数据挖掘之后的信息在职能范围和表现形式方式均得到了丰富和拓展,而这也在一定程度上体现了网络拟定目标服务具有较强的完整性,且属于特殊的个体物品,同时也是对传统数据挖掘技术的创新和发展,从而更好地满足当前大数据时代对信息进行数据化的处理,并对不同种类业务进行整合和优化,从而促进数据挖掘技术服务的一体化水平。
2.3大数据背景下的数据挖掘技术的应用必须注重信息失真的控制
数据挖掘技术的信息主要是源于大数据和社会,所以在当前数据挖掘技术需求不断加大的今天,为了更好地促进所挖掘数据信息的真实性,促进其个性化职能的发挥,必须在大数据背景下注重信息失真的控制,切实做好数据挖掘技术管理的各项工作。这就需要引导学生考虑如何确保数据挖掘技术在大数据背景下的职能得到有效的发挥,尽可能地促进数据挖掘技术信息资源的升级和转型,以大数据背景为载体,促进整个业务和技术操作流程的一体化,从而更好地将所有数据资源的消耗和变化以及管理的科学性和有效性,这样我们就能及时的找到资源的消耗源头,从而更好地对数据资源的消耗效益进行评价,最终促进业务流程的优化,并结合大数据背景对数据挖掘技术的职能进行拓展,促进其外部信息与内部信息的合作,对数据挖掘技术信息的职能进行有效的控制,才能更好地促进信息失真的控制[2]。
3数据挖掘技术在不同行业中的应用实践
学习的最终目的是为了更好的应用,随着时代的发展,数据挖掘技术将在越来越多的行业中得以应用。这就需要高校教师引导学生结合实际需要强化对其的应用。例如在市场营销行业中数据挖掘技术的应用这主要是因为数据挖掘能有效的解析消费者的消费行为和消费习惯,从而利用其将销售方式改进和优化,最终促进产品销量的提升。与此同时,通过对购物消费行为的分析,掌握客户的忠诚度和消费意识等,从而针对性的改变营销策略,同时还能找到更多潜在的客户。再如在制造业中数据挖掘技术的应用,其目的就在于对产品质量进行检验。引导学生深入某企业实际,对所制造产品的数据进行研究,从而找出其存在的规则,并对其生产流程进行分析之后,对其生产的过程进行分析,从而更好地对生产质量的影响因素进行分析,并促进其效率的提升。换言之,主要就是对各种生产数据进行筛选,从而得出有用的数据和知识,再采取决策树算法进行统计决策,并从中选取正确决策,从而更好地对产品在市场中的流行程度,决定生产和转型的方向。再如在教育行业中数据挖掘技术的应用,主要是为了更好地对学习情况、教学评估和心里动向等数据进行分类和筛选,从而为学校的教学改革提供参考和支持。比如为了更好地对教学质量进行评估,就需要对教学质量有关项目进行整合与存储,从而更好地促进其对教学质量的评估,而这一过程中,就需要采取数据挖掘技术对有关教学项目中的数据进行挖掘和处理,促进其应用成效的提升[3]。
4结语
综上所述,在大数据背景下,数据挖掘技术已经在各行各业中得到了广泛的应用,所以为了更好地满足应用的需要,在实际教学工作中,我们必须引导学生切实加强对其特点的分析,并结合实际需要,切实注重数据挖掘技术的应用,才能促进其应用成效的提升,最终达到学以致用的目的。
作者:何智文 邓伦丹 单位:南昌大学科学技术学院
参考文献:
[1]李平荣。大数据时代的数据挖掘技术与应用[J].重庆三峡学院学报,2014,03:45-47.
摘 要
数据挖掘技术是当前数据库和人工智能领域研究的热点课题, 本文首先对数据挖掘技术的国内外总体研究情况进行概略介绍,包括数据挖掘技术产生背景、应用领域、分类;然后详细阐述了数据挖掘的各种技术方法,并对数据挖掘的应用领域做了相关介绍。
【关键词】数据挖掘 决策支持 关联规则 模式
1 前言
数据挖掘含义是指从大量、模糊、随机的实际应用数据中,提取隐藏在其内部中、人
们原先不知晓的、却潜在有用的信息和知识的过程。我们把提取出的信息和知识表示为规律、概念、模式、规则等形式。数据挖掘被认为是一门跨多知识领域和学科的新兴课题,它为我们使用数据从简单查询将变为在数据里挖掘与发现知识从而产生对决策行为提供支持。为了能够满足人们从大量数据里发现知识的需求,来自不同领域的专家学者,都致力于研究这个热点课题――数据挖掘,不断研究和产生出新的研究成果。自从加拿大蒙特利尔在1995年召开了首届KDD&Data Mining国际学术会议,此后每年举办一次。通过数年努力, 数据挖掘技术研究取得了丰硕的成果,不少数据挖掘的软件产品,已在欧洲、北美等国家得到广泛的应用。目前,应用广泛的数据挖掘系统有:IBM公司的Intelligent Miner、SGI公司的SetMiner、SPSS公司的Clementine、SAS公司的Enterprise Miner、Sybase公司的Warehouse Studio、RuleQuest Research公司的See5、还有CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。在我国,数据挖掘技术的研究也取得了相当客观的成果。
2 数据挖掘的技术方法
通常情况下,我们把数据挖掘方法分为两大方面,一是统计类型,有概率分析、相
关性、聚类分析和判别分析等常用技术;二是人工智能领域中的机器学习型,通过训练和学量的样品集获得需要的模式或参数。
2.1 遗传算法
遗传算法是基于生物进化过程组合优化方法,它是和计算机科学与生物学结合的产物,由美国密西根大学教授D.J.Holland和他的同事们在1975年首次提出。人们总结的遗传算法基本思想分为两点:第一,将物种进化理论用于求解问题,物种进化又分为变异和遗传两个方面;第二,只有最能适应环境的物种才能生存下来,所以需要反复求解后才可以获得最佳解。遗传算法按照规则产生经过基因编码最初群体,然后从代表问题可能潜在答案的初始群体出发,选择适应度强的个体进行交换和变异,目的是发现适应度更佳的个体,这样一代代地演化,得到最优个体,解码,该最佳个体编码就是对应的问题最佳解或近似最佳解。在遗传算法的使用上,它的优点是对问题要求信息较少,比较高效性和灵活性。在数据挖掘中,经常用于估测其它算法的适合度,同时遗传算法擅长于数据聚类,通过和空间上类比和时间上类比,能够使大量复杂数据系统化、条理化,从而找出他们之间的内在联系,获得有用概念和模式。
2.2 关联分析
在大型数据库中,关联规则挖掘是最常见的数据挖掘任务之一。关联规则挖掘就是从大量数据中发现项集之间的相关联系。最著名的关联规则挖掘算法是由Agrawal等于1994年提出的 Apriori算法,其基本思想是:第一找出所有频繁1-项集集合Ll,使用L1查找频繁2-项集集合L2,继而用L2用于L3,反复迭代,一直到不能找到频繁k-项集。并利用事先设定好的最小支持度阈值进行筛选,将小于最小支持度的候选项集删除,再进行下一次的合并生成该层的频繁项集。经过筛选可减少候选项集数,从而加快关联规则挖掘的速度。
2.3 决策树
决策树算法之所以在数据分析挖掘应用中如此流行,主要原因在于决策树的构造不需要任何领域的知识,很适合探索式的知识发掘,并且可以处理高维度的数据。在众多的数据挖掘、统计分析算法中,决策树最大的优点在于它所产生的一系列从树根到树枝(或树叶)的规则,可以很容易地被分析师和业务人员理解,而且这些典型的规则甚至不用整理(或稍加整理),就是现成的可以应用的业务优化策略和业务优化路径。另外,决策树技术对数据的分布甚至缺失非常宽容,不容易受到极值的影响。
国际上最有影响的决策树方法是由Quinlan 研制的ID3方法。ID3(Iterative Dichotomiser)算法其最大的特点在于自变量的挑选标准是:基于信息增益的度量选择具有最高信息增益的属性作为结点的分裂(分割)属性,其结果就是对分割后的结点进行分类所需的信息量最小,这也是一种划分纯度的思想。
决策树技术在数据化运营中的主要用途体现在:作为分类、预测问题的典型支持技术,它在用户划分、行为预测、规则梳理等方面具有广泛的应用前景,决策树甚至可以作为其他建模技术前期进行变量筛选的一种方法,即通过决策树的分割来筛选有效地输入自变量。
2.4 粗糙集方法
粗糙集理论定位为一种刻划不确定性和不完整性的数学工具,可以有效地分析和处理不一致、不精确、不完整等信息,以从中发现隐藏的不为所知的知识,揭示潜在的规律。该理论是由波兰学者Z.Pawlak教授在1982年提出的,从1992年至今,每年召开以RS为主题的国际会议,推动了RS理论的拓展和应用。
粗糙集是处理模糊数据的有力工具,而要达到这样的目的需要有两个重要的步骤来进行处理―属性约简和值约简,属性约简是对粗糙集合(那些不能区分的集合)进行纵向的简化,把不必要的属性去掉,即去掉这些属性也不会影响对象的区分能力,这样便于以后进一步的简约处理
由于粗糙集理论创建的目的和研究的出发点就是直接对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律,因此是一种天然的数据挖掘或者知识发现手段,与基于证据理论的数据挖掘方法、基于模糊理论的数据挖掘方法、基于概率论的数据挖掘方法等其他处理不确定性问题理论的方法相比较,最显著的区别是它不需要提供问题所需处理的数据集合之外的任何先验知识,而且与处理其他不确定性问题的理论有很强的互补性。
2.5 神经网络
人工神经网络(Artificial Neural Networks)是指能够模仿人脑神经元联接结构特征并且进行分布式并行信息处理的数学模型。根据人脑的神经元的原理所产生的人工神经网络能够通过不断修正其内部的节点间相互连接的关系达到处理信息的目的。BP(Back Propagation)网络,也称为误差反向传播算法,是目前使用较多也比较成熟的神经网络算法, 1985 年Rumelhart 等人提出,它的实质是通过误差反向传播算法训练数据的多层前馈神经网络,是目前应用最为广泛的神经网络模型。BP 神经网络能够学习和存储大量输入-输出模式映射关系,而且还并不需要预先揭示表现此种映射关系数学模型。它采用的学习规则是最速下降法,主要利用反向传播不断修订网络的权值和阈值,达到建立的神经网络误差的平方和最小。在数据挖掘中,神经网络主要用于获取分类模式。BP 神经网络能够用来聚类、分类和预测等,通常只需要一定历史数据,即把训练样本作设为输入,便能够对训练样本训练,通过学习与存储该数据样本中隐含的知识信息后,能够为后面的数据分析提供必要有用的知识。但是神经网络分类方法获得的模式常常隐藏在网络结构中,不能够显示地表达成为一定的规则,所以不容易被人们理解和解释;而且还需要多次扫描训练数据,网络需要的训练时间较长。所以与其他数据挖掘方法相比较,神经网络用于数据挖掘,要解决好两个关键点:降低不必要的训练时间,增强挖掘结果的可理解性。
2.6 模糊技术
模糊数据挖掘技术是通过利用原有数据挖掘技术同时,与模糊理论相结合,以期从大量数据中发现更为广泛的内容,其挖掘结果将会使用户更容易理解。由于现实生活中,数据之间的关系往往表现为模糊性,因此将模糊理论与数据挖掘技术结合从海量的、不完全的、随机的、含噪声的模糊数据中提取潜在的、未知即通过模糊集合理论对问题模糊评判、模糊决策、模糊模式识别和模糊聚类分析。因为模糊性是客观存在,而且系的复杂性越高,模糊性就越强,通常模糊集合理论是用隶属度来描述模糊事物,所以它为数据挖掘提供了概念和知识的表达、定性定量的转换、概念综合和分解方法。
2.7 可视化技术
可视化技术是指采用计算机图形学和图像处理技术,把数据转换成图形或图像并且在屏幕上显示出来,从而进行交互处理技术。它将信息的模式、数据关联和趋势展示给决策者,决策者能够通过可视化的技术来交互分析数据之间的关系。可视化技术实现过程由四个步骤组成:数据预处理、映射、绘制和显示。数据预处理阶段,针对各不相同的可视化方法和内容,要求对最初数据进行变换处理,设置数据格式和标准,并且要数据压缩和解压缩;在映射阶段,针对不同类型的应用数据,使用不同的映射技术把数值数据转换成几何数据;在绘制阶段将几何数据绘制成目标图像;在显示阶段,将图像数据按用户要求进行输出。在整个过程中,映射功能完成数据的建模功能,是核心。模型可视化的具体方法则与数据挖掘采用算法相关联,如,决策树算法用树形表示;过程可视化可以用数据流图来描述知识发现过程。
3 数据挖掘应用
数据挖掘技术是面向应用的。数据挖掘的研究有利地促进了数据挖掘技术应用的发展与推广。随着研究的深入,数据挖掘技术的应用越来越广泛。主要集中在以下几方面:
3.1 金融业
数据挖掘技术用于银行行业的存/贷款趋势预测,优化存/贷款策略和投资组合。
3.2 生物信息
在基因工程中的染色体、基因序列的识别分析、基因表达路径分析、基因表达相似性分析、以及制药、生物信息和科学研究等。
3.3 零售业
数据挖掘技术被用来进行分析购物篮来协助货架设置,安排促销商品组合和促销时间商业活动。
3.4 客户关系管理
数据挖掘技术被用于分析客户的行为,分类客户,以此进一步针对客户流失、客户利润、客户响应等方面进行分析,最终改善客户关系管理。
3.5 电子商务
数据挖掘技术被用于在线交互式营销系统的经营模式、市场策略、Web广告效果分析以及在线购物的消费者行为分析,从而优化网站结构,改善网页推荐和商品推荐内容等。
4 结语
综上, 数据挖掘涵盖多种理论和技术,有着广泛应用前景。深入分析研究数据挖掘,应用数据挖掘技术将是我们未来努力的方向。
参考文献
[1]Fayyad U M,Piatet sky- shapiro G,Smyth P.Advances in knowledge discovery and data mining.California:AAAI/ MITPress, 1996.
[2]Chen Lei-da et al.Date mining methods,applications,tools[J].Information Systems Management, 2000;17(1):65-70.
[3]H Mannila,H Toivonen et al.Efficient algorithms for discovering as sociation rules[C].In :Knowledge Discovery in Databases(KDD’94),AAAI Press,1994:181-192.
[4]陆汝钤。人工智能。北京:科学出版社, 1996:823-844.
[5]曾黄麟。粗集理论及其应用[M].重庆:重庆大学出版社,1996.
[6]Michie D,Spiegelhalter D J.Machine Learning,Neural an Stastical Classification.London:Ellis Horwood Press,1994.
[7]何新贵。数据采掘中的模糊技术[J].计算机科学,1998,25(专刊):129-131.
[8]万家华,刘冰,江早。知识发现中的可视化技术[J].计算机科学,2000,27(增刊):131-134.
作者简介
王雅轩(1969-),女,研究生学历。现为大连外国语大学教授。主要研究方向为软件理论与应用。
顼聪(1977-)男,研究生学历。现为大连外国语大学讲师。主要研究方向为智能软件。
作者单位
大连外国语大学 辽宁省大连市 116044
关键词:数据挖掘 技术研究 前景分析
中图分类号:TP39 文献标识码:A 文章编号:1674-098X(2014)05(c)-0034-01
数据挖掘技术对各个不同应用领域中的传统数据进行分析研究,提取其中存在的有价值的信息。随着科技信息的快速发展,人们对信息分析技术的要求越来越高,现阶段如何从大量的数据中挖掘出自己所需的知识日益重要。数据挖掘技术是在传统数据分析系统的基础上建立起的新数据处理技术。
1 数据挖掘技术分析研究
1.1 数据挖掘的背景
当今社会信息技术的广泛利用提高了生产的能力,在企业、工程建设和科学研究中数据挖掘技术被逐渐利用,数据挖掘技术的优点在被逐渐推广,作为新兴的技术被广泛使用。在信息时代的激烈竞争中,提高数据的利用效率问题显得日益重要,企业在激烈的市场竞争中要想结合数据挖掘技术的作用使得数据信息作为企业有利的竞争手段,只有充分利用数据挖掘的技术才能够高效的为企业的良好发展打下一个坚固的基础。面对社会竞争中的各种挑战,数据挖掘技术是在传统数据分析基础上升级的一项高效技术,其优势已经适应社会的竞争理念正在被完善利用。
1.2 数据挖掘的功能分析
数据挖掘的主要任务是对数据分类以及对信息的预处理数据预测进行分析,其中信息预处理是以由两个或两个以上的变量值进行分析,得出两者之间存在的规律,称之为信息预处理。数据预处理有简单处理和复杂处理,的目的是对数据库中的隐藏知识进行研究分析,结合相关重要的参数使得挖掘出的数据更符合应用的要求。数据的预测是结合历史的数据总结出数据的规律,对同一类型的数据进行比较,可以运用数据的预测方式使得挖掘技术更好的展现。
1.3 数据挖掘的概念
数据挖掘技术是一门新的计算机应用技术中的技术,在近几年的发展中逐渐吸引了大量相关工作者的关注,科学挖掘技术会给企业减少一些不必要的投资,使自身能够获得一定的利益回报。数据挖掘技术在企业中的利用会逐渐提高,由于新技术的使用会给企业带来丰厚的利益,使得企业之间广泛运用数据挖掘技术,随着数据挖掘技术在运用中的不不断升级和挖掘技术的完善发展,促使数据挖掘技术在各个行业中被逐渐重视。结合数据库技术和系统分析技术的运用,保障相关工作人员对挖掘出的数据的透彻理解,挖掘技术的运用要求保证数据的准确有效性,对挖掘出的数据价值作出合理的分析,使挖掘数据具有一定的科学价值。
2 数据挖掘技术的流程展现
2.1 数据挖掘的应用
数据挖掘技术能够为企业的运行带来显著的利益,使得很多企业都在利用数据挖掘技术为自身的经济利益作出保障。企业在发展中为了稳定的长期发展,从而利用数据挖掘技术了解客户的特点,从中得到一定的经济利益,结合数据的特点可以针对性的为客户提供所需的服务。企业根据数据挖掘技术可以找到符合自己所需的客户进行产品销售,增加更多的经济利益。数据挖掘技术运用多个领域,可根据不同领域的特点采用数据挖掘减少利益的损失,开阔领域的发展前景。
2.2 数据挖掘的结构
数据挖掘技术从数据库到技术的运用过程中有不同的运行步骤,在确定业务对象问题方面可根据数据的准备对所有业务对象进行分析研究处理,保障数据的质量从而为进一步的分析工作做准备。在数据的转换方面应建立一个针对性的分析模型,挖掘数据的成功关键因素,对所得的数据进行预处理,完善挖掘技术的措施,使数据分析工作自动顺利的运行。在数据挖掘技术的结果分析上,应对数据结果做出正确的评估,与知识理念共同分析,完善数据挖掘技术的每一步结构。
3 结语
随着信息的高速发展,使得数据系统越来越复杂,数据类型的要求也越来越多,使用合理有效的数据挖掘技术能够将传统数据的作用更好发挥。数据挖掘技术是一个有潜力的发展领域,在社会利益的竞争中被不断完善运用,每年都会有更高效的数据挖掘技术产生,市场中对数据挖掘技术的要求日益严格。数据挖掘技术在高速的社会发展下面临着诸多挑战,对数据挖掘技术必须作出优化处理措施,维护数据挖掘中的各种问题产生解决问题,完善数据挖掘技术的运用,使数据挖掘能够长久的在未来发展。
参考文献
[1] 黄天航。面向数字城市规划的数据仓库构建中主题信息的组织与提取研究――以大北京区域规划为例[C]//规划创新:2010中国城市规划年会论文集,2010.
[2] 吴亮,符定红。基于距离扩散的审计信息系统异常数据挖掘算法研究[J].长春理工大学学报(社会科学版),2012(2).
[3] 杨静,申艳光,邢丽莉。数据仓库与数据挖掘的研究与应用[C]//2006北京地区高校研究生学术交流会――通信与信息技术会议论文集(下),2006.
【关键词】数据挖掘;关键技术;实际应用
前 言
数据挖掘从一开始的简单查询已提升到从数据中挖掘知识,提供决策支持,它属于一门交叉学科。近年来,()国内外许多研究机构都进行了数据挖掘技术的研究和探索。可以说,从大量数据中提取潜在的有用的知识和信息的数据挖掘技术,将在更多的领域得到研究和广泛应用。
一、数据挖掘的关键技术
数据挖掘可以说是一种决策支持过程,分析各组织原有的数据,做出归纳和推理,从中挖掘出潜在有用的、有效的模式,为管理人员决策提供支持。为了有效地挖掘出数据中潜在的信息,需要对数据挖掘技术进行深入研究。由此,下面就对数据挖掘的可视化技术、决策树、遗传算法、模糊技术、最近邻技术这五个关键技术进行详实的论述和分析。
1.可视化技术
数据可视化技术(也称为图形显示技术),就是使用可视化的图形描绘信息模型,然后将显示出的数据趋势很直观的呈现给决策者。和其他的数据挖掘技术,使用这种技术时通常是一个组合,它可以交互地分析数据,我们应该说,这种技术的实用性不容低估。例如,在数据库中的多维数据成各种图形显示数据固有的性质和分布数据的特点发挥了重要作用。总之,将数据挖掘过程可视化,更容易找到数据之间可能存在的模式、关系和异常情况等。
2.决策树
决策树可以说是按照一系列规则导出类值的一种挖掘方法,它可以依靠计算条件概率来构造。具体而言,决策树的基本思想是通过一个树状结构的数据进行分类记录,树的叶节点表示了在一定条件下的一组记录,根据记录建立树枝分支;在每个较低的节点和分支子集中,成立重复的分支子集,从而生成一个决策树。每个决策树都表述了一种树型结构,可以依靠对源数据库的分割进行数据测试。总之,这种挖掘方法可以有效地处理非数值数据,并允许独立的变量,在固有的神经网络以尽量减少组合爆炸,可取得理想的效果。
3.遗传算法
这是一种基于生物进化理论的优化方法,其基本思想是“适者生存”:随着时间的更替,只有最适合的物种才得以进化。它借用了生物遗传学的角度点,通过模仿自然选择、基因突变,改善个体适应的机制。遗传信息通常被称为基因,该基因包含正确的权值,其中包含了该模型的参数。当该基因包含一个隐藏层时,包含每一层的节点数量。例如,创建一个神经网络,遗传算法可以恰当的调整权值,在一定条件下更可以代替反向传播方法。同时,遗传算法还可以用来找到最佳的结构。总之,遗传算法可以处理多种数据类型、并行处理各种数据,能够解决许多其它技术难以解决的问题;但需要的参数较多,算法较复杂,计算量较大。
4.模糊技术
模糊技术一般包含模糊评判、模糊模式识别、模糊决策和模糊聚类分析这几个步骤,多是利用模糊集理论对实际问题进行系统的研究,往往能够取得很好的效果。这种模糊性属于客观现实,与数据挖掘系统存在一种关系,即系统越复杂,模糊性就越强。关于传统的模糊理论和概率统计,在定性定量转换模型不确定性的基础上,李德毅教授提出了云模型,并依据此形成了云理论。而事实上,模糊集理论通常都是用来描述模糊事物的随机性、复杂性。为了表达定性概念,将概念的模糊性和复杂性很好地结合,云模型要充分利用期望值、熵和超熵,在概率模型中寻找参数。可以说,模糊技术是为数据挖掘提供一个概念的形成和知识表达、概念综合和概念层次划分、定性概念和定量表示转换的一个新方法。
5.最近邻技术
数据最近邻技术(也称为K-最近邻方法),就是先利用K个最与之相近的历史记录,然后将这些历史记录组合起来,以确定新的记录的一种数据挖掘方法,它是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。一般情况下,这种技术可用于多种数据挖掘任务,例如,数据聚类、数据偏差分析等。
除上述之外,数据挖掘的关键技术还包括人工神经网络、规则归纳等。经过不断的实践和应用,数据挖掘过程越来越标准化、规范化。可以说,随着新的数据挖掘技术的不断增多,数据挖掘工具的不断推陈出新,数据挖掘技术也越来越显示出其广阔的应用前景。
二、数据挖掘的实际应用
与传统分析方法相比,数据挖掘技术可以发现更有用的信息,这是应用传统分析方法时所不能发现的,因此数据挖掘具有重要的理论意义和实用价值。当前,数据挖掘在人们的实际生活中十分常见,主要是应用于一些需要处理海量数据的重要部门。比如:用于大型零售组织的数据挖掘系统,可以在决策支持过程为制定市场策略、提供决策支持给予有力的技术和工具保证;用于银行金融方面的数据挖掘系统,可以预测存款趋势,帮助相关执行人员更好地进行有促进作用的活动,帮助他们设计新的市场运行方案;用于远程通讯部门的数据挖掘系统,可以了解客户服务使用的结构和模式,便于工作人员作出最佳的投资决策;用于质量监督保证方面的数据挖掘系统,可以自动找出一些不正常的数据分布,并分析出各种影响因素,以帮助质量工程师在最短时间内找出问题的范围,从而能够及时采取相应的解决措施等等。总之,数据挖掘技术已经广泛应用于零售与批发、运输、银行金融、制造、软件开发等多个企事业单位及国防科研上。随着信息技术的不断发展和数据挖掘工具的不断完善,数据挖掘技术将在更多的领域得到应用。
结束语
总的来讲,数据挖掘技术在现实中的应用越来越广泛,能够为用户提供更好的服务。可以说,数据挖掘的研究和应用是一个长期而艰苦的工作。随着数据挖掘技术的不断发展,其必将在更多的领域得到更为广泛的应用,而利用数据挖掘所得的知识帮助人们作出决策,将是一项非常有实际应用前景的工作。参考文献
[1]杨雪。浅析数据挖掘技术[J].金融科技时代,2005,(08).
关键词:数据挖掘;方法;数据挖掘技术;数据仓库
中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)34-2030-03
Brief Analysis of Data Mining Techniques
WEI Xiao-ling
(Department of Primary education, Qinzhou University, Qinzhou 535000, China)
Abstract: Data mining techniques is an emerging research field in database and artificial intelligence.Is present widespread research data bank technology Is present widespread research data bank technology, It may refine usefully, the latent information from the massive data, After ten several years research and application, Had already established the quite solid rationale, at present, is closely integrated with applications, Further reform of the existing technology development.
Key words: data mining; methods; data mining; techniques data warehouse
1 引言
随着计算机技术,特别是数据库技术的快速发展和广泛应用,各行各业积累的数据量越来越大,传统的数据处理方式已很难充分利用蕴藏在这些数据中的有用知识,为适应这种需求 ,数据挖掘(Data Mining,DM)应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。
数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。
从80年代末数据挖掘开始出现,短短二十多年它的发展速度很快。目前数据挖掘技术在零售业的购物篮分析、金融风险预测 、产品质量分析、通讯及医疗服务 、基因工程研究等许 多领域得到了成功的应用.很多专题会议也把数据挖掘和知识发现列为议题之一。
2 数据挖掘技术概述
所谓数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。
数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。
3 数据挖掘技术功能
1) 自动预测趋势和行为
数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。
2) 关联分析
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
3) 聚类
数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。
4) 概念描述
概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。
5) 偏差检测
数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。
4 数据挖掘常用技术
在数据挖掘中最常用的技术有:
人工神经网络:人工神经网络方法从结构上模仿生物神经网络,是一种通过训练来学习的非线性预测模型。 它将每一个连接看作一个处理单元(PE),试图模拟人脑神经元的功能。它可以完成分类、聚类、特征挖掘等多种数据挖掘任务。
决策树:决策树是数据挖掘中经常要用到的一种技术,可以用于分析数据,同样也可以用来作预测。它利用树的结构将数据记录进行分类,树的一个叶结点就代表某个条件下的一个记录集,根据记录字段的不同取值建立树的分支;在每个分支子集中重复建立下层结点和分支,便可生成一棵决策树。常用的算法有CHAID、 CART、 Quest 和C5.0。
遗传算法:遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法。其基本思想是基于 Darwin的进化论和 Mendel的遗传学说。该算法由密执安(Michigan)大学教授 Holland及其学生于 1975年创建。与传统搜索算法不同,遗传算法从一组随机产生的初始解,称为种群(Population),开始搜索过程。种群中的每个个体是问题的一个解,称为染色体(Chromone)。染色体是一串符号,例如一个二进制字符串。这些染色体在后续迭代中不断进化,称为遗传在每一代中用适应度 (Fitness)来衡量染色体的好坏。生成下一代染色体,称为后代(Offspring)。后代是由前一代染色体通过交叉(Crossover)或变异(Muration)运算形成。根据适应度大小选择部分后代淘汰部分后代,从而保持种群大小是常数。适应度高的染色体被选中的概率高。这样,经过若干代之后,算法收敛于最好的染色体,它很可能就是问题的最优解或次优解。
近邻算法:将数据集合中每一个记录进行分类的方法。
规则推导:从统计意义上对数据中的“如果-那么”规则进行寻找和推导。
5 数据挖掘技术实现
在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。
1) 数据的抽取
数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数据抽取方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。
2) 数据的存储和管理
数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能,将普通关系数据库改造成适合担当数据仓库的服务器。
3) 数据的展现
在数据展现方面主要的方式有:
查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。
4) 数据挖掘一般过程
图1描述了数据挖掘的基本过程和主要步骤。
过程中各步骤的大体内容如下:
5.1 确定业务对象
清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的
5.2 数据准备
1) 数据的选择
搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。
2) 数据的预处理
研究数据的质量,为进一步的分析作准备。并确定将要进行的挖掘操作的类型。
3) 数据的转换
将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。
5.3 数据挖掘
对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。
5.4 结果分析
解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。
5.5 知识的同化
将分析所得到的知识集成到业务信息系统的组织结构中去。
6 数据挖掘技术的应用
应用是数据挖掘技术的发展动力,数据挖掘研究具有广泛的应用前景,因为数据挖掘产生的知识可以用于决策支持、信息管理、科学研究等许多领域。数据挖掘技术与各个行业的有机结合体现了其蓬勃的生命力 ,且这种趋势正在以前所未有的速度继续向前发展。尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。数据挖掘所能解决的典型商业问题包括:数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等。具体应用实例如:IBM公司开发的QUEST和Intelligent Miner系统可以挖掘顾客的购物行为模式,预测销售行情。AT& T实验室开发了Hancock系统,该系统主要处理电信数据流,分析电话呼叫记录。Bell通信研究所的Tribeca则是一个用于网络监控的系统。Google公司利用其数据挖掘技术Page Rank,在短短的几年内打败所有竞争对手成为Internet上的赢家。
7 结束语
数据挖掘是当前计算机工业最热门的研究领域之一。它是一个不断发展的、综合交叉的学科。随着数据挖掘成功案例的广播,越来越多的行业采用数据挖掘技术,它将会被广泛而深入地应用于人类生活的各个领域。
参考文献:
[1] 张士玲,杨林楠,孙向前,等。浅论数据挖掘技术[J].福建电脑,2005(8):61-62.
[2] 杨雪。浅析数据挖掘技术[J].华南金融电脑,2005(8):83-85.
[3] 张倩。数据挖掘技术综述[J].甘肃科技,2005,21(7):92-93.
[4] 黄晓霞,萧蕴诗。数据挖掘应用研究及展望[J].计算机辅助工程,2001(4):23-29.