首 页 行业热点 新车 试驾评测 养车用车 车型库
当前位置:首页数据挖掘的哲学思考

数据挖掘的哲学思考

2022-12-30 来源:好土汽车网
导读 数据挖掘的哲学思考
维普资讯 http://www.cqvip.com

图书馆学刊 2006年第3期 TUS¨UCUANXUEKAN N0.3。2006 数据挖掘的哲学思考 周宇葵杜方冬 (中南大学医学技术与情报学院,湖南长沙41 001 3) 【摘要】数据挖掘是一门揭示存在于数据里的模式或数据间关系的科学。对数据挖掘的概念、数据挖掘的技术及 数据挖掘的结果进行了哲学层面的分析。 【关键词】数据挖掘数据模型 哲学 【分类号]TP31 1.131 1数据挖掘概念的哲学基础 “数据挖掘(Data Mining,DM)”是近10年 出现的一个 2.1数据挖掘的动机 人们进行数据挖掘活动通常是在其天生的好奇心的驱 使下进行的,对未知领域的了解的渴望是人们从事数据挖掘 活动的原动力,它同人的需要意识直接相关,但与动物的需 要有着本质的区别。动物的需婴仅仅是生理需要,而人的需 要不仅具有生理性,更重要的足具有社会性,它是在需要意 汉的作用下进行和完成的。在数据挖掘的过程中,这种需要 名词,但其起源可追溯到2O世纪5O年代人T智能的早期发 展。在此期间,模式识别和基于规则推理的发展为数据挖掘 提供了构建基础。 目前数据挖掘的定义有很多,有的人认为,数据挖掘就 是从大量的数据中抽取出潜在的、有价值的知识、模型或规 则的过程。也有的人认为,数据挖掘是从大量数据中提取出 可信、新颖、有效并能被人理解的模式的高级处理过程,即人 们常说的数据库中的知识发现(Knowledge Discover Database,KDD)等等。一种比较公认的定义是:.1嗷据挖掘足 从大型数据库中提取人们感兴趣的知识的过程,这些知识是 隐含的、事先未知的潜在有用信息,提取的知识表示为概念、 规则、规律、模式等形式。我们认为,数据挖掘是对大型数据 库中的数据进行研究和分析,以自动或.半自动的程序为手 段,发掘出先前未知的、有价值的、可理解的相关性的过程。 它不是业务需求的实际解决方案,而是探寻数据之间存在的 潜在的相戈性。 往往体现在发掘数据问潜在的各种父联和规则,并最大限度 地利用这些关联和规则。节约成本,提高效益,在各囚素问寻 找最佳的平衡点,充分发挥企业的潜能,以获取最大限度的 社会效益和经济效益。然而事物不是一成不变的,内部或外 界的任何一个因素的小小变化都会打破已经形成的平衡。而 这种失衡在短时间内通过传统的手段是很难发现的,为了使 这种失衡现象不要持续得太久,以免造成_史大的损失,数据 挖掘活动必须经常进行,随时寻找新的最佳平衡点,不断地 调整向己的状态,让自己时刻处于各种因素的最佳平衡点, 这是人们进行数据挖掘的根本日的。 2,2数据挖掘技术 哲学是哭于思维的科学,是人们以理论形式表达对整个 世界的本质和一般规律的认识。哲学所涉及的是概念的内 涵,是事物的本质及其内在的关系。哲学是一种带有逻辑特 征和推理特征的高度的抽象思维和逻辑思维,它不仅仅报道 事实当 -所进行的思维活动,更重要的是解释事实背后的隐 义。 数据挖掘技术是在“发现丰体”Ⅱp人的需要意识的作用 下,为达到数据挖掘的日的而采用的一系列客观手段,它不 仅仅是主观愿望,还是一种现实的客观力量,而且与数据挖 掘的动机之间存在着密切的联系。一方而。数据挖掘技术的 选择受数据挖掘动机的制约,它是完全服务于数据挖掘动机 并受其制约的客观动作方式。数据挖掘技术越具体、越特殊, 受到选择的制约性就越大。同样,数据挖掘技术的水平和效 率也在一定程度,卜I制约着数据挖掘动机的贯彻。为了史好地 实现数据挖掘的动机,在数据挖掘的过程ffI往往会 断比较 数据挖掘的过程也是一种发现、推理和思维过程,其目 的是探寻事物间潜在的联系.只不过在寻找这些潜在联系时 更多的是借助于计算机技术和信息技术,但对结果的分析和 解释仍然需要借助于人类的思维。可以说数据挖掘是哲学思 维在计算机领域的局限性应用。 和改变数据挖掘技术,以寻求最佳的技术。在确定了最佳数 据挖掘技术后,在没有其他因素干扰的前提下,人们通常会 尽可能将数据挖掘的动机贯彻到底。 2.2.1数据挖掘方法的种类。近年来,数据挖掘技术的发展 非常快,并出现了许多不同类型的方法。总的来说,数据挖掘 方法可分为统计方法、机器学习方法、神经网络方法和数据 库方法四大类。13 1统计方法是数据挖掘的经典方法,其l{I包括回必分析 (多冗回归.白同归等)、判别分析(贝叶斯判别、费歇尔判别、 2数据挖掘过程的哲学分析 探寻未知领域是生命世界的普遍现象,但只有人是有意 识地去进行此项活动。对于任何“发现”而言,都离不开发现 主体和发现客体,它们是相互对立又相互联系的两个方而。 可以说,人是唯一的“发现主体”,而人类所有未知的领域都 是人的“发现客体”。 ‘数据挖掘”是人类探寻未知领域的一 个实例,它是人(发现主体)与数据问存在的潜在联系(发现 客体)相互作用的动态系统。 数据挖掘作为一个动态系统,除了发现主体和发现客体 之间.还存在下列促进因素: 非参数判别等)、聚类分析(系统聚类、动念聚类等)、探索性 分析(主元分析法、相关分析法等),以及模糊集、料糙集、支 持向最集等。 机器学习方法包括归纳学习方法(决策树、规则归纳 等)、基于范例的推理CBR、遗传箅法、n』叶斯信念网络等。 维普资讯 http://www.cqvip.com

图书馆学刊 2006年第3期 TUSHUGUANXUEKAN No.3.2006 神经网络方法包括前向神经网络(BP算法等)、自组织神 提高: 作效率,获得最大限度的社会效益和经济效益,爿.是 经网络(白组织特征映射、竞争学习等)等。 数据挖掘工作的出发点和最终目的。 数据库方法丰要有基于可视化的多维数据分析或OLAP 2.3数据挖掘的结果 方法、面向属性的归纳方法等。 数据挖掘的结果是对数据挖掘动机的现实性“证明”。数 2.2,2数据挖掘的过程。数据挖掘的过程是一个提出问题、 据挖掘的动机是否符合客观规律,数据挖掘技术的选择和运 发现问题、解决问题的过程。通常情况下,要完成一项数据挖 用是否得当,在数据挖掘结果中都将得到检验。挖掘结果不 掘任务,需要分以下七个步骤,如图1所 。 仅能在很大程度上满足人对未知事物的求知欲,还能扩大人 .匣 蕊虱 的认识能力,因为挖掘结果通常情况下是潜在的,是人原先 了解的,挖掘结果对这种潜在信息的揭示势必会提高人的 I据的挖目掘的 据l I和模需求型 准Hl l b整备卜理l .1l模评型估 Hl l麓H方及法蜜选施l择 井 l 悃 新验信证息 fl L 竺 l 认识能力。即使挖掘结果反映的信息是人们已经知晓的,也 能起到进一步的证实作用。潜在的信息一旦被“显示”之后, 人们又会以此为基础,调整数据挖掘技术,在新的动机驱使 图1数据挖掘的步骤 下,进行新一轮数据挖掘活动。 ①确定数据挖掘的目的。当数据库的拥有者感觉到自己 数据挖掘结果与数据挖掘动机相比照,可能会出现的结 已收集到的数据一定存在着某种价值时,就有可能使用数据 果有三种: 挖掘来发现其中的价值。在确定数据挖掘的目的时,通常需要 ①结果与动机一致或基本一致。 明确需要解决的问题、理解关联数据、预测使用挖掘的结果。 ②结果与动机不一致,但有重大的意外发现。 ②定义数据模型和数据需求。典型的数据模型通常定 ③结果与动机不一致,也没有其他任何有价值的结果。 义:所用的数据来源、数据类型、数据内容、数据描述以及数 针对数据挖掘动机的不同,上述三种结果的意义会大不 据用法。但数据挖掘根据其使用日的,需要有自己的数据模 相同。然而,从数据挖掘的初衷来看,结果②的意义显得更为 型。对于大多数数据挖掘应用来说,所要求的数据模型为单 重大,因为“重大的意外发现”可能就是我们要探寻的潜在关 个文件或数据库表的形式。 联和规则。 定义数据挖掘的数据模型是一项复杂的工作,首先要确 定何处需要支持有特定要求应用程序的数据模型,然后可通 3结语 过向最终用户询问他们所需要的信息类型来确定数据,最后 执行必要的聚集以支持这种要求。由于数据挖掘活动具有非 随着信息技术的迅速发展和信息化的深入,各种数据库 常大的不确定性,因此,在开始时就很难确定哪些变量是必 Lf1积累的数据越来越多。功能再完善的数据库通常也只能实 要的棚 些变最是可以省略的,从而增加了生成数据模型所 现数据的录入、修改、统计、查询等功能,数据的背后所隐藏 需要的时间。 的许多重要信息很难发现,数据库的拥有者也就无法根据现 ③数据准备与整理。主要是对迁移到数据模型中的数据 有的数据预测未来的发展趋势,数据库的许多潜在的功能很 进行初始化和预处理。数据初始化和预处理包含识别、收集、 难实现。为了对数据库进行更高层次的分析,以便更好地利 过滤和汇总(原始)数据的阶段,将数据转换为数据模型和选 用这些数据.就需要进行“数据挖掘”。 定的挖掘功能所要求的格式。 坚持辩证唯物主义的反映沧是数据挖掘的根本核心。对 、 ④数据模型评估。在将数据迁移到数据模型巾后,为了 数据库中数据进行的所有处理都必须尊重客观实际,坚持实 确保移人数据模型的数据能够满足完整性、准确性和相关性 事求是,反对主观臆断。更反对弄虚作假、掩盖事实真相。尽 的要求.需要对数据模型进行评估。首先,使用可视化工具查 管数据挖掘的目的是为了揭示事物间存在的潜在联系。但这 看输入数据,确定在数据准备阶段,是否存在错误的表连接 些潜在联系是客观存在的,因此,在对数据挖掘结果进行分 等现象;然后,处理“不一致标识”和“错误解析”的问题。尽量 析时,解释要合乎科学,反映的应该是客观现象的本质及其 减少“溢出值和丢失值”等现象,提高数据质量;最后,对挖掘 规律性。 由于数据挖掘的过程是探寻“未知”事物的过程,有 操作进行最终的“功能,变量的选择”。通过统计测试等手段发 时需要提出种种假设。但最终仍然需要通过查看支持或相悖 现“依赖的或高度相关的变量”,减少依赖变罱,选择有清楚 于假设的数据来证明假设成立或不成立。客观地反映事物间 解释的变量和对最终用户有意义的变量。 的潜在联系是数据挖掘的唯一出发点和归宿。 ⑤数据挖掘方法选择及实施。选择合适的挖掘方法是数 据挖掘的关键步骤。合适的挖掘方法包括两个方面:一方面, 参考文献: 针对特定的数据挖掘任务选择合适的挖掘技术;另一方面, 『11贺清碧,胡久永.数据挖掘技术综述.西南民族大学学报 在选择了合适的挖掘技术后,还要采用合适的应用技术的方 (自然科学版)。2003(3) 式,如正确地定义和设定相关参数。 f21许玉乾.关于发现的哲学分析.青海社会科学,1994(4) ⑥解释结果并验证新信息。在业务专家的参与下,借助 [3】lmp:fwww.intsei_ac.c ̄dm&dd.html 可视化技术等对数据挖掘的结果进行解释,并验证在确定数 1唐斯如.哲学原理在统计研究中的应用.财贸研究。1994(1) 据挖掘初级阶段所捉出的各种假设。 周宇葵女,1970年生。讲师。硕士。发表论文1O余篇,主 ⑦结果运用。通过数据挖掘手段明确了数据间存在的潜 编或参编论著、教材4部。 在的相关性,并不意味着数据挖掘 f 作已经完成,找出j-述 杜方冬男,1971年生。副教授。硕士。发表论文1O余篇,主 数据间存在的相关性还不是数据挖掘的最终日的,只有党分 编或参编论著、教材6部。 利用数据挖掘的结果,调整我们的实际 作,优化工作流程, (收稿日期:2005—10-24;责编:张欣。) 

因篇幅问题不能全部显示,请点此查看更多更全内容