首页 > 范文大全 > 正文

知识挖掘在纺织行业信息化建设中的作用

开篇:润墨网以专业的文秘视角,为您筛选了一篇知识挖掘在纺织行业信息化建设中的作用范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

信息化的推进使纺织行业积累了大量的数据,如果能够从凌乱的数据(如海关进出口数据,国家统计局生产数据、经济指标、固定资产投资数据,纺织企业直报数据及其他非结构化数据等)中挖掘有价值的知识,就意味着开始进入知识管理时代。

计算机技术的迅速发展使得处理数据成为可能,纺织行业也不再满足于简单的数据查询应用,而提出了深层次需求,即从数据中提取信息或者知识为企业或者行业决策服务。知识管理的各种功能及服务最终都还需依靠知识管理技术来实现,如搜索引擎服务就离不开搜索引擎技术,知识生产服务也需要数据挖掘和内容管理技术的支撑。可以说,没有强大的挖掘和管理技术支持,将很难有效地实施知识管理,很难做到产业预警和行业服务,它是构建知识管理系统的基础,也是实现知识管理的强大推动力。

1 数据挖掘的含义和作用

数据挖掘概念提出的历史虽然较短,但从20世纪90年代以来,其发展速度很快,加之它是多学科综合的产物,目前还没有一个完整的定义,人们提出了多种表达方式,例如:

SAS研究所(1997年):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法。”

Bhavani(1999年):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程。”

Hand等(2000年):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程。”

笔者认为,数据挖掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术。这些信息是可能有潜在价值的,能够支持决策,可以为企业或者行业带来利益,或发现行业存在的问题,从而为行业服务和预警等。

数据挖掘综合了多个学科的技术,针对纺织行业的主要功能如下。

(1)分类:按照某一来源数据分析其属性、特征,建立多级编码来区不同类别的数据。例如,中国海关的进出口数据商品代码10位、国别代码3位、贸易方式2位、经营单位10位、单位2位、数量12位、金额12位、累计数量12位、累计金额12位、去年累计数量12位、去年累计金额12位、15个汉字企业名称。其中,商品代码10位中的前6位,完全遵循国际交换编码规则。

(2)聚类:识别出和分析出不同数据间的内在联系,按照这些规则把对象分成若干类。

(3)关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如,通过每月采购家纺四件套的客户数据分析,挖掘出采购枕芯等其他产品的比重,从容地帮助企业应对突入起来的市场变化。

(4)预测:把握分析对象发展的规律,对未来趋势做出预见。例如,通过建立行业运行模型、验证预测效果,能够及时、准确、有效地为行业和企业提供行业统计数据,并通过对数据的分析迅速得出我国纺织业的经济运行趋势。这就需要建立一个完整的,而且能够使各个环节实现无缝连接的运行机制。

(5)偏差的检测:对分析对象中少数、极端特例的描述,揭示内在原因。例如,在行业的每一个月或者一段时间的交易中有哪些纺织品交易出现波动,做出预警,从而分析出问题的内在因素,降低风险。

2 数据挖掘与知识发现

知识发现的目的是从数据中发现知识,而数据挖掘则是知识发现中的一个特定步骤,都是从数据中发现知识。但是,知识发现是更广义的一个概念,而数据挖掘则是更具体、更深入的概念,其关系体现在知识发现的过程中。

2.1数据挖掘和知识发现的步骤

(1)问题理解和提出:在开始数据挖掘和知识发现之前最基础的工作就是理解数据和实际的业务问题,在这个基础之上提出问题,对目标有明确的定义。

(2)数据准备:获取原始数据,并从中抽取一定数量的子集,建立数据挖掘库,其中一个问题是如果行业原有数据仓库满足数据挖掘的要求,就可以将此数据仓库作为数据挖掘库。

(3)数据整理:由于数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,就要对数据进行初步的整理,清洗不完全的数据,做初步的描述分析,选择与数据挖掘有关的变量,或者转变变量。

(4)模型分析:根据数据挖掘的目标和数据的特征,选择合适的模型。

(5)预测检验:对数据挖掘的结果进行评价,选择最优的模型,作出评价,运用于实际问题,并且要和专业知识结合对结果进行解释。

具体步骤如图1所示,

2.2数据挖掘条件机制和方法

知识发现所处理的对象数据如果是原始数据,则不适合在这些数据上进行知识挖掘,需要对其进行相应处理,如数据的选择、净化(消除噪音、冗余数据)等,使其生成过程数据,之后进行转换,包括离散值数据与连续值数据之间的相互转换、数据值得分组分类、数据项之间的计算组合等,为后面的数据挖掘准备好正确的数据。现以国家统计局提供的纺织产品(国家统计局对外)在2009年前后的两套编码系统为例,来说明上述整理及分析过程。

纺织行业运行数据的外部数据源是多种多样的,而每一类数据,随着时间的延续,不可避免地会发生这样或那样的变化,由此,可以想象,外部数据源的数据进入纺织行业运行状况数据仓库的处理过程,将是十分的繁琐和复杂的。

(1)条件触发机制

条件触发机制是指数据仓库和数据挖掘系统,在给定的条件下,自动从数据仓库挖掘数据并将这些数据添加到应用数据库的一种方法。条件触发机制在常规的数据挖掘工作中十分重要,它可以自动检测挖掘条件,一旦条件成立,系统即刻启动相应的挖掘方法,并将结果补充到应用数据库中。这将把日常繁杂的人工操作,全部由系统自动完成,为行业运行数据分析提供了准确、及时、高效、简洁的工作环境。挖掘系统能够灵活使用,挖掘语言是该系统的重要组成部件,如图2所示。

使用者在用户界面通过简单的操作,选择条件,确认后将任务提交,用户界面可以把使用者在屏幕上的条件选择转换成一组条件表达式(条件语言),条件表达式送至翻译机后将转换成挖掘语言挖掘语言由挖掘指令组成,它的功能是把输入的条件表达式翻译成可驱动数据仓库操作的操作表达式。一系列的操作表达式,控制数据仓库正确地提取数据,然后再将数据按标准格式输出。