首页 > 范文大全 > 正文

基于教育信息资源的智能搜索引擎设计与实现

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于教育信息资源的智能搜索引擎设计与实现范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:首先对智能搜索引擎做了简要概述.接着提出了一种新的搜索引擎的设计思路.并针对独立搜索引擎的不足。独立搜索引擎与元搜索引擎结合起来。提高了搜索引擎的精度和效率。

关键词:智能搜索引擎 元搜索引擎

中图分类号 TP311.11 文献标识码 B 文章编号:1002-2422(2007)03-0037-03

1 教育搜索引擎组成与原理

本搜索引擎将传统专业搜索引擎和元搜索引擎结合起来,不仅提高了搜索引擎的覆盖率,而且采用一种综合评价算法,优化了搜索结果的排列次序,同时根据各返回页面的主题内容进行聚类显示,方便用户检索。该搜索引擎主要包括4个模块:信息采集模块、信息挖掘模块、元搜索引擎模块和结果排序、聚类模块。

1.1 信息挖掘模块

该模块对搜索器所采集的信息进行单汉字标引(即全文索引),主题概念标引,摘要自动生成及对网页重要程度进行评价。单汉字标引法将概念词拆成单汉字,以单汉字为处理单位,利用汉字索引文件实现自动标引和逻辑检索。由于这种方法把对“词”的处理改为对“字”的处理,因此就绕过了汉语分词的难题。主题概念标引模块对采集来的信息进行内容特征分析,并抽取出能表达该信息主题的关键词、关键句,为用户提供主题概念检索入口。

1.2 元搜索引擎模块

该模块将用户提交的检索请求到多个独立的搜索引擎上去搜索,并将各个检索结果与本地检索相互印证,互相比较,可以进一步提高查全率和查准率。

1.3 结果合并、排序、聚类显示模块

搜索引擎对检索结果的组织性是提高系统运行和性能评价的关键技术。近年来一直是国际上搜索引擎界的研究热点。该模块完成独立搜索引擎与元搜索引擎返回结果的合并、排序。并对信息进行主题概念聚类。搜索结果以聚类树和权重顺序两种形式显示。

2 智能搜索引擎系统中关键技术的实现

系统的关键技术包括资源采集控制、其他独立搜索引擎的调用接口及返回结果的排序算法。

2.1 信息采集控制

信息采集是从一个初始URL集合开始,顺着这些URL中的超链接,循环往复地在互联网中发现信息。我们这个系统是针对教育资源领域的一个专业搜索引擎,如果任意选择初始URL集合,则很可能使Robot(采集程序)偏离教育资源这一领域。我们发现,Google、百度等大型综合搜索引擎可以为我们指引初始方向:以“教育资源”、“教学资源”,“教学课件”等关键词组进行搜索,就可以得到大量超链接。这些超链接组织成一个质量较高的初始URL集合。

网站中不是所有的URL链接都是与教育、教学相关。如果Robot沿着这些无用链接去采集信息,不仅降低了采集效率,而且会收集到大量垃圾信息,如广告超链接。因此,对信息采集进行控制。

信息挖掘模块首先对采集到页面进行主题分析,如果页面主题与教育相关,则通过反馈,允许Robot沿着该页面的URL继续采集信息:否则终止在该页面的采集活动。

2.2 其他独立搜索引擎的调用

元搜索引擎要通过程序接口调用其他多个独立搜索引擎,就必须要获取到这些独立搜索引擎的程序接口。要获得这些程序接口很容易,观察每个独立搜索引擎的地址栏的变化就可以总结出它们的接口。如用/s?lm=0&si=&m=10&ie=gb2312&ct=0&wd=电子商务%Fl&pn=l&cl=3,就可以得到百度有关“电子商务”的搜索结果,其中“pn=l”表示从第一条返回结果开始显示。

2.3 搜索结果的排序算法

最终的搜索结果包括两部分:本地数据的检索结果和元搜索引擎模块获得的搜索结果。结果排序模块将这两部分搜索结果合并到一起,并按每个搜索结果与用户提问表达式的符合程度进行排序,最后显示给用户。搜索结果与用户提问表达式的复合程度可以通过计算它们之间的相似度来衡量。

首先,提取提问表达式中的主题概念,把抽取出的主题概念表示成向量形式,代表提问式,如,q=(q1,w1;q2,w2;…qi;…,qn,wn),qi表示从提问式抽出的主题概念,wi表示qi的权值,这里默认为1;然后,抽取每一个搜索结果的主题概念,并用这些主题概念形成的向量代表搜索结果,如di=(c1,w1;c2,w2;…ci,wi:…cn,wn):ci表示从搜索结果中抽出的主题概念,wi表示ci的权值,可以用TF-IDF计算得到;最后,用公式1计算搜索结果向量与提问式向量之间的相似度,输出模块最终以相似度的大小排序输出公式如下: