首页 > 范文大全 > 正文

档案用户数据分析引擎建设研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇档案用户数据分析引擎建设研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:本文提出了一个档案用户数据分析引擎的总体框架模型。在此基础上,探讨了实现与部署该模型应进行的主要工作。集中对档案用户数据分析引擎的实现技术选择以及典型功能的实现方案进行了论述,并对档案用户数据分析引擎的优化问题及其配套制度建设进行了探讨。

关键词:档案用户;分析引擎;协同过滤;档案模型;推荐系统

本文从分析用户数据来提升档案服务的目的出发,立足于档案馆实践需求和实际数据建设能力,提出一个档案用户数据分析引擎架构模型方案。该方案的核心思想是,通过建立档案馆对用户数据的分析机制,指导和促进自身服务的提升。

1 档案用户数据分析引擎模型

本文所称的档案用户数据,是指用户在利用档案过程中所形成的反映档案利用行为、利用主体及客体特征的数据。要实现通过关注档案用户数据促进档案服务的提升,就要建立对这部分数据进行分析、知识抽取以及采取相应行动的机制,这就是档案用户数据分析引擎。该分析引擎的意义在于,使得档案部门可以利用对用户行为数据分析的技术手段,将原本的“数据废气”[1]变废为宝,为档案部门的服务提升和管理进步提供了现实支持。

为此,我们提出一个档案用户数据分析引擎模型,如图1所示:

图1 档案用户数据分析引擎模型

该引擎总体上分为五个层次:存储层、知识提取层、知识表示层、行为层和反馈层。其中存储层主要负责实施对档案用户数据收集、存储和向上层调用控制。该层次中的档案用户数据收集模块负责对档案用户特征、档案利用行为、用户对档案评价等数据的收集,数据整理清洗模块负责规整收集到的数据、消除数据噪声等。随后将收集到的数据存储至档案用户数据库中。隐私保护和密级保护规则模块,负责防止数据向上层调用时违反隐私和保密规则。

存储层之上是知识提取层,其根据收集存储的用户利用数据,运用数据挖掘工具提取出有用知识。主要包括以下的几个功能单元:1.分类模型。对档案用户和所利用档案数据资源进行分类和聚类,按照用户以及利用档案资源之间的相似度判定其各自的所属类别,对用户评价的原因进行分类。2.推荐引擎。主要根据档案用户的利用行为、身份属性或档案资源所获得的评价,为用户推荐档案数据资源,提供档案数据个性化推荐的系统服务。3.评价分析。对档案数据资源所获得的评价进行整理和统计分析,得出用户对所利用的档案资源、服务情况等方面的信息。4.关联分析。对档案用户数据中所体现的规律和联系进行分析,如用户利用目的与利用档案类型的关系,档案数据信息之间在利用中的联系,档案利用行为与特定时间之间的关系,等等。5.异常检测。识别档案用户数据中不常见的、反常的实例,包括异常的评价、利用行为、用户属性信息等,提供给分析引擎的上层进行鉴别与决策,判定这是新的档案利用趋势,还是需要特殊服务的用户,或是对档案利用数据的恶意干扰等。

知识提取层之上是知识表示层,其将知识提取层所抽取的知识,表达成为对于档案服务提升、支持决策有用的、可理解的知识形态。主要包括:1.用户特征表征。例如,对用户的身份特征、利用目的等进行分析和展现,表征档案用户可以分为哪些类型、用户身份特征的变化情况等。2.档案利用特征呈现。这一部分主要展现档案数据资源获得利用的情况、档案资源所获得的评价信息、用户属性与档案利用项目和种类的关系等。3.趋势变动及预估。主要表现随时间变动的档案资源所获评价、用户利用档案以及评价档案的时间特点、对用户未来档案利用行为的预计,等等。

知识表示层之上是行为层,是根据分析引擎所表示的知识规则,提示档案馆应采取策略的功能层次。主要包括:1.服务提升。主要可包括:档案资源个性化推荐、档案数据智能检索、档案用户间交流群建设及相应好友推荐等内容。2.资源建设。根据分析引擎提供的知识来改进档案数据资源的收集与构成,如进行以下工作:档案资源评价分类、用户差评分析、档案数据资源利用关联分析、用户未能检索到的档案资源分析等。3.支持决策。应用分析引擎提取的知识支持档案馆的管理决策,实现循数管理[2]的思想。如通过对档案用户进行分类与聚类、实现小众化服务;通过对档案用户数据中异常实例的感知和分析,确定档案馆应采取的相应措施;通过档案项目所获评价的趋势分析,实施档案开放以及利用工作的前瞻性安排等。

用户满意度是对分析引擎效能的最终极评价指标,用户的反馈意见是引擎优化的根本依据。因此本引擎在设计上设置了反馈层,用以收集档案用户对于引擎驱动的档案服务提升的满意度信息,根据用户实际满意度来调整和完善分析引擎的架构与技术方案。

2 档案用户数据分析引擎的实施与部署

以上我们所提出的分析引擎,从概念模型的角度阐释了引擎总体架构和所包含的功能。下面,我们结合当前档案馆的实际,探讨一下对该引擎进行实施和部署应采取的几方面工作措施:

2.1 完善当前档案信息系统用户数据采集功能。目前在开展了档案信息化的档案部门,一般均采用了基于数据库系统加管理软件的档案信息系统(典型的如“南大之星”系统),大多数档案部门所用到这类系统的主要功能是存储和检索档案数据文件,而较少关注和利用这些信息系统所具有的用户数据采集功能。而且在一些型号的档案信息系统中,对该类别数据的采集功能支持度也不够。所以,档案部门应当从现在起,除了重视档案数据本身,还要重视对档案用户数据的采集与存储工作。要充分将自身已有的档案信息系统用户数据采集功能利用起来,或是依托相关技术力量来开发与完善此部分数据的采集功能,为部署分析引擎提供必要的数据基础。

2.2 选择适用于档案馆自身的分析引擎实现技术。档案馆要充分考虑到自身的现实数据分析需求、技术力量和馆藏资源特点,选择恰当的信息技术来实现分析引擎的主要功能。正如选择软件的一种原则一样:功能强大的傻瓜软件才是最好的。因此,档案部门为了实际部署档案用户数据分析引擎,所选择的具体数据技术应当是对于自身易于实现、功能较强,既符合档案部门实际应用需求又不超越自身的技术力量。这样,使分析引擎既发挥积极作用,又不使档案部门陷入“技术泥潭”。

2.3 结合自身情况实现分析引擎的具体功能。所提出的档案用户数据分析引擎所具有的实际功能包含很多种,每种功能面对档案部门的实际环境也会具有不同的表现形式。因此,档案部门可根据自身所面对的用户群体与档案资源状况,应用自身所选择的引擎实现技术,实现符合自身服务需要的分析引擎功能。例如,可以根据自身所面对用户的身份特征信息,开展对档案数据资源的个性化推荐;建立对档案用户属性的多维分析资源库;开发对档案数据资源的辅助检索系统,应对用户检索多样化的应用环境;为了防止档案资源流失,通过异常检测分析潜在的不守信用用户并进行预警;通过趋势变动及预估来感知用户对档案需求或反馈意见的变化趋势等。从总体讲,这些具体功能的根本目的,就是为了将用户数据驱动服务提升与管理进步的宗旨落到实处。

2.4 建立与完善分析引擎的配套制度。对于档案部门来说,信息技术要与配套制度相结合,才能实现档案服务与管理的真正进步。用户数据分析引擎在档案馆部署运行的过程中,档案部门要制定有效的管理制度和使用规范,确保其发挥良好的作用。例如,应研究建立档案数据个性化推荐系统使用规则、用户数据收集实施办法、用户数据安全性责任规范、用户意见反馈收集实施办法等。通过这一系列的工作制度和纪律规范,明确用户数据分析引擎运行过程中档案工作人员的任务职责,以制度的形式确保分析引擎的良好运行以及对档案部门进步的促进作用。

3 档案用户数据分析引擎实现技术选择的探讨

基于以上分析,我们以下探讨对分析引擎实现技术的选择问题。从总体上说,数据挖掘领域的关联规则(Association Rule)、协同过滤(Collaborative Filter)、对项目的向量建模是与该分析引擎相关的几项技术。其中,关联规则技术的优点是:对其的研究比较深入、技术较成熟,其实现的软件产品与技术人员等也比较丰富。其缺点在于:1.在模型建立的阶段计算量往往很大,难以实时完成。关联规则的模型建立、存储后,也一般不能做到经常修改模型、进行关联规则集的更新,应变度不好。2.对于所产生的关联规则的解释和应用,本身就是一个复杂的、在很大程度上具有超技术特征的哲学式任务。且误导的关联规则和负相关问题需要额外的处理关注。3.关联规则对于用户个性化特征体现和服务支持不足。关联规则方法在于从整体上了解数据库事务较为普遍的、宏观的发生规律,是在考察整体,而非“关照个体”。例如,其应用在资源个性化推荐的场景中,除非目标用户与大多数人行为模式相似,否则难以得到满意的推荐。

协同过滤技术[3]的基本原理是基于最近邻居的评分数据对目标用户产生推荐。协同过滤技术的核心是用户―评分矩阵,用来表示用户对每个项目的评价。基本的推荐步骤是用户评价、最近邻查找、推荐结果生成。

项目的向量建模技术主要思想是,将目标项目提取为特征向量,用于匹配计算等场景。这项技术的个性化程度较高,但其难点在于对推荐项目(如文档)特征的提取,如文献[4]中介绍了对于文本的特征提取公式等。而对于那些难以提取特征、准确表达成向量形式的推荐项目(如音像档案等)则较难应用。

考虑到目前我国档案馆的现实数据分析需求、技术力量以及馆藏资源特点,在此我们提出主要选择协同过滤技术作为用户分析引擎的实现技术,并辅以向量建模技术以提高分析效果。

基于本节的分析,以下我们阐述几种分析引擎典型功能的技术实现方案。

4 档案用户数据分析引擎若干典型功能技术方案

4.1 档案数据资源个性化推荐。当前用户对档案资源的需求主要属于因办理某事务而对档案资料的刚性需求。所以在实际应用场景中,用户的档案需求往往在档案类别上有共性、在具体文件上有个性,因此,我们提出如下的推荐方案:

①对档案用户进行建模,采用向量形式描述用户属性集合。将档案文件按照所属全宗类别进行建模,每一类别作为协同过滤矩阵中的一个项目。

②根据档案利用数据,建立“用户属性-档案文件类别”二值观测值矩阵,其中以0、1数值的形式记录具有某属性的用户利用过某类档案文件的情况。

③当目标用户在档案利用中输入自身属性信息,分析引擎的推荐引擎模块即根据其属性信息在用户向量模型空间中计算查找最相似用户,然后检索这些最相似用户在“用户属性-档案文件类别”矩阵中利用过什么类别的档案文件。

④将检索到的文件类别(并集)与目标用户自身属性相结合,在档案系统数据库中检索到具体的档案数据文件推荐给用户。

该方案实际上是对经典协同过滤技术的一种变形,主要是将其“用户-项目”矩阵变为“用户属性-档案文件类别”矩阵,并结合用户属性向量实施推荐。对于目标用户的最近邻查找是在用户属性向量模型空间中完成的,而推荐结果的生成则划分为两步:一是在矩阵中直接读取最近邻用户的档案文件类别,二是结合目标用户自身属性检索具体档案文件。这种策略大大缓解了传统协同过滤的稀疏性与冷启动问题。更为重要的是,其更加适用于档案领域的实际场景。

4.2 档案利用关联分析。档案利用关联分析的目的是要揭示用户属性(如身份信息、利用目的等)与所利用档案类别集合之间的关系。这种分析得出的结果主要有两个方面的重要用途:一是为档案馆识别用户、安排与优化档案资源提供决策依据;二是为实现上述的档案数据资源个性化提供建模支持。

基于4.1节中所提出的协同过滤矩阵,建立利用分析模型。重点是根据档案馆实际情况分别建立档案用户模型与档案资源类别模型。其中用户模型的建模目的是将档案用户映射为不同的特征向量。例如,在档案资源个性化推荐中,使得目标用户能通过模型映射找到与其特征相似近邻用户;而对于档案项目的建模,目标是使资源模型可以准确刻画档案数据文件从属于何种类别,该类别的划分有助于揭示此类文件的共性,且有助于其与用户属性结合后准确地直接检索到用户所需的具体文件。

具体的建模策略实际可视为一个分类模型(classification model)问题,即将“用户属性-档案文件类别”二值观测值矩阵中的每一行视为一个独特状态。档案馆通过分析总结档案利用数据与馆藏档案类别,首先归纳得出若干不同的利用状态(矩阵行),然后利用分类模型技术,将档案用户身份属性信息映射到各自唯一对应的档案利用状态(也就是分类决策树的叶节点)。如图2所示:

图2 用户利用档案类别分析模型

所建立的分类决策树模型,每个叶节点应对应“用户属性-档案文件类别”矩阵中的一行,决策树中的每个非叶节点代表一个应当体现在用户向量模型中的用户属性项目。从而以此指导建立档案用户向量模型。而之所以不将该决策树直接用于推荐引擎,是因为决策树模型往往存在误差,且直接在树上查询至叶节点也往往存在效率上的问题。因此,以协同过滤技术实现推荐服务可具有更好的容错性和运行效率。

在建立分类模型过程中,可以应用诸如C4.5等[5]分类模型技术,通过信息增益率来确定用户属性项目的价值(即属性选择度量),这对于完善档案用户向量模型是一种直接而有效的方法。而建立分类模型需要训练集(training set)与检验集(test set)。对此可以将档案馆人员分析得出的用户属性-利用档案文件类别数据集,分为训练集与检验集两部分,前者建立决策树,后者进行模型的验证和完善。而且,这个过程在实践中可以通过新得出的数据定期进行,以完善和优化所建立的分类模型。

4.3 档案未命中检索词分析。用户检索档案数据所使用的关键词,体现出用户对档案资源的实际需求以及自身表达特点。若是用户在档案信息系统中经过一系列尝试后未检索到所需的档案文件,那么,档案馆应该定期对这些“未命中检索关键词”进行分析(通过操作日志等),找出检索未命中的原因。该原因一般可归结为三类:资源不存在、检索词笔误、资源命名不匹配。在经过认真分析确定原因后,档案馆应分别采取如下的处理措施:对于资源不存在,应在对检索词统计汇总后,研究加强今后的档案资源建设,调整所需档案收集的项目,以使馆藏档案资源的扩充向用户实际需求方向发展;对于检索词笔误,可将用户输入有误的检索词作为“规则”与其应该命中的文件建立链接,今后系统再遇到该错误时,即可将正确的文件推送到用户,增强档案检索系统的容错性;对于资源命名不匹配问题,也可按照该方式,将用户所用检索词与应命中文件链接,增强档案检索系统的适应性。在此提出的技术策略,实际上是通过倒排文件的思想,来提升档案信息系统检索的智能化水平。

5 档案用户数据分析引擎的优化及制度建设

任何成功的制度设计,都应具备有效的自我完善机制。因此,我们提出的档案用户数据分析引擎设置了反馈层,用以收集分析引擎运行后用户对档案服务的满意度和反馈意见等信息。以此为依据,对分析引擎的功能、实现机制、技术方案等做出优化调整。

对于分析引擎在实践中的优化,一方面,需要根据实际运行中的用户反馈对引擎进行改进,另一方面,也需要测试基准(benchmark)对其进行有效验证,这种测试基准就是典型档案用户案例。建立这种用户案例的主要考虑原则包括:1.代表性。典型档案用户案例主要特点在于“典型”,即用相对可行的用户数量,全面反映各种类的档案用户特点。2.反馈性。组成典型档案用户案例的用户应与档案馆之间建立有充分的、及时的信息反馈机制,将档案服务的实际质量、存在的问题等及时、真实有效地反馈给档案馆。3.可控性。典型档案用户案例相对于档案馆应是可控的,这意味着双方彼此间应建立良好的互信关系,对于档案服务引擎可能存在的问题与不足进行友好的沟通与探讨,而不致因某些不足造成不可控的影响。通过在典型用户案例上的实际测试和完善,面向实际提高档案用户数据分析引擎的效能。

对于档案数据分析引擎的配套制度建设,目前我们应该重点关注两点:一是有效收集档案用户数据的问题,二是对系统中档案用户隐私保护问题。

对于有效收集档案用户数据的问题,档案用户数据的主要内容包括对档案利用行为的数据、档案用户自身属性的数据、所利用档案具有属性的数据三个主要的部分。对于它们的收集要本着准确、及时、全面的原则,因为它们是整个档案用户数据分析引擎运行的基石。对于档案利用行为数据,在数字化档案馆条件下,可基于档案信息系统自动完成。档案部门也可对以往档案利用登记数据进行汇总,获得更为全面的利用规律。对于档案具有属性的数据,应基于档案元数据来获得,这就要求档案部门今后要更加重视档案元数据的收集、存储和利用。

对于档案用户自身属性的数据,相关研究中[6]亦称为用户人口统计信息(Demographic Information)等。对于其的收集,档案部门首先是调查搞清:哪些信息项目对于分析引擎的功能是需要的,要收集加以考虑,而哪些信息项目不重要,不可盲目收集。另外还要注意哪些是用户“最不愿意填写”的信息项目,这些项目用户要么就不会提供、要么即使填写也是不真实的信息,从而影响引擎的分析功能正常发挥。对此,档案馆要充分地向用户宣传与沟通,积极促进用户提供自身真实有效的属性信息。

例如,4.2节中所提出的分类模型,其在建模过程中就会逐步筛选出对于分析有意义的用户属性项目,因此在实践中应对用户的这些属性加以重点收集、确保其正确和真实,这就意味着档案部门要通过有效的策略鼓励用户提供这些信息项目的真实信息。

对于分析引擎中用户隐私保护问题,当前相关研究中[7]提出了一系列的用户隐私保护措施,如收集主体的合法性、隐私管理者的保密及忠实义务、贯彻落实相关的法律规定等,在分析引擎实际运行中可以参照这些措施对用户的信息实施保护。这实际与有效收集用户属性信息问题是相辅相成的,只有用户的信息受到良好的保护、进行正确的利用,才能促使用户更加顺畅地提供自身属性数据供分析引擎正常运行,从而形成档案用户、档案部门与分析引擎之间的良性互动。

6 总结

本文重点关注了如何通过对用户数据的分析来驱动档案服务提升的问题。提出了档案用户数据分析引擎的模型架构,并基于协同过滤和向量建模等技术提出了若干具体的功能实现策略。在设计和部署数字化以及智慧档案馆的信息系统时,可将本文提出的策略作为设计要求和实现说明,将对用户数据的感知及分析功能融入档案系统中加以实现。

*本文系2014年度国家档案局科技项目“大数据时代档案馆服务创新与发展趋势研究”(课题编号:2014-X-16)的阶段性研究成果之一。

参考文献:

[1]张倩. 高校档案用户行为大数据分析技术应用研究[J]. 档案与建设.2014(08):16~21.

[2]周枫. 资源.技术.思维――大数据时代档案馆的三维诠释[J]. 档案学研究.2013(06):61~64.

[3]孔维梁. 协同过滤推荐系统关键问题研究[D].博士学位论文.华中师范大学.2013.

[4]林鸿飞,姚天顺.基于示例的中文文本过滤模型[J].大连理工大学学报,2000,40(03):375~378.

[5]徐鹏,林森. 基于C4.5决策树的流量分类方法[J].软件学报, 2009,20(10):2692~2704.

[6]袁先虎. 基于混合用户模型的协同过滤推荐算法研究[D].硕士学位论文.重庆大学.2010.

[7]孙强. 档案利用中的个人隐私保护问题探析[J].档案学研究,2014,(04):40~43.

(作者单位:天津工业大学档案馆 来稿日期:2014-10-16)