增强机构知识库内容发现和利用影响的策略与方法实践(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇增强机构知识库内容发现和利用影响的策略与方法实践范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

摘要：文章以中国科学院机构知识库CAS OpenIR为例，采用基于学术搜索引擎Google Scholar优化的策略和方法，如针对Google Scholar收录原则、Google Scholar元数据体系、sitemaps、Robots协议等策略和方法进行分析和实践，通过提升机构知识库在Google Scholar中的收录比率，进而增强机构知识库中内容被发现引用的机率，以扩大IR利用影响力。

关键词：机构知识库谷歌学术搜索学术搜索引擎优化中科院机构知识库

中图分类号： G252 G255.76 文献标识码： A 文章编号： 1003-6938（2012）05-0085-05

1 引言

近年来机构知识库（Institutional Repository，IR）快速稳步增长，已覆盖了大部分知名高校和科研机构。目前在开放获取机构资源库OpenDOAR中注册登记的IR已有2163家[1]，除此以外还有相当一部分数量的IR未在OpenDOAR中注册。IR做为支持开放获取的一种重要形式，支持机构实施数字知识资产的长期保存和管理，提高机构及科研人员智力成果的发现几率、传播范围和影响，是吸引机构及科研人员重视和参与IR建设的重要因素。相关的研究也表明，支持开放获取的论文其引用影响可获得25%～250%的提升[2]。而Arlitsch等人[3]的调查结果显示，当前IR内容被Google Scholar收录的比率总体上维持在10%～30%的水平，甚至有0%的IR（见图1）。也就是说，大部分IR的内容没有得到充分的发现和利用，仍然局限在小范围内进行交流传播。

Google Scholar作为一项针对学者和科研人员的免费学术文献搜索服务，现在已成为学者、研究人员和学生查找专业文献资料的首选工具[4]。其搜索的范围涵盖了几乎所有知识领域的高质量学术研究资料，包括论文、专业书籍以及技术报告等。Google Scholar不但可以过滤普通网络搜索引擎中对学术人士无用的大量信息，通过与众多学术文献出版商的合作，还加入了许多普通搜索引擎无法搜索到的内容。目前，科研用户通过网络来获取资源，第一选择就是通过Google等搜索引擎进行大范围搜索，其次考虑利用专业的学术数据库，最后才会去翻阅学术期刊。这种检索顺序已经形成了一种社会习惯。

因此，如何解决IR被搜索引擎Google Scholar收录，提升IR中学术文章被Google Scholar收录的比率，已成为增强IR内容可发现性和可见性的关键。本文以中国科学院研究所IR平台CAS OpenIR[5]为例，采用学术搜索引擎优化（Academic Search Engine Optimization，ASEO）的策略和方法，通过提升IR在Google Scholar中的索引比率，进而增强IR中内容被发现引用和利用影响力。

[图1 IR被Google Scholar收录情况调查表[3]]

2 ASEO策略和目的

ASEO建立在传统的SEO[6]基础之上，是从普通的SEO发展而来。由于学术搜索引擎Google Scholar与普通搜索引擎有着明确的定位区别，因此ASEO与SEO有着明显的不同之处。

SEO指通过采用易于搜索引擎索引的合理技术手段和策略，使网站各项要素适合搜索引擎的检索原则，从而更容易被搜索引擎收录和优先排序。SEO基于网页（Web Page），收录过程较灵活和容易。IR属于学术产出的数据库平台，有着自身的元数据元素集，其中的学术文章属于“Academic Invisible Web”[7]，不能被Google Scholar直接访问和索引。因此，在被学术搜索引擎Google Scholar收录前，需要对IR进行ASEO改造，使其符合Google Scholar索引标准，易于被Google Scholar收录爬取。即：

（1）使IR可以被搜索引擎Google Scholar更好地收录和更新（包括IR的元数据和全文）；

（2）使搜索引擎在规则允许的范围内进行索引，明确IR的哪些页面可以被索引收录，哪些页面不能被索引收录；

（3）在用户使用Google Scholar搜索时，可以排名靠前的呈现IR中的相关条目，起到推介IR的作用；

（4）将IR中开放权限的全文纳入Google Scholar的全文检索中，增加IR中论文的可见性，提高论文的被引用率。

3 Google Scholar收录原则和排名算法

Google Scholar针对学术性数据库内容的收录和索引，有明确的收录原则[8]，如：① 被收录文章需要有唯一的URL；②匿名用户可免费地通过原文URL进入阅读被收录文章；③数据库服务的Robots.txt协议正确配置，明确允许及禁止Googlebot爬取的路径及内容范围；④数据记录的Meta标签符合Google Scholar Meta规则，并且必须包含DC.title，DC.creator，DCTERMS.issued三项描述元数据；⑤记录除了题录文摘信息外，被收录记录必须要有全文；⑥全文格式为PDF格式。

Google Scholar检索排名继承了普通Google检索中应用的PageRank算法[9]，即主要看某项学术内容、页面被引用的情况，同时还将文章全文、作者和出版物等因素纳入算法，从而保证检索结果的高相关性，提高查准率。学术论文被引述的频度越多，一般判断这篇论文的权威性就越高，它的PageRank值就越高。

4 面向IR的ASEO策略与方法实现

根据学术搜索引擎Google Scholar收录、排名的要约特点，本文中笔者将选取ASEO中的关键环节，就设计思路和实现的过程做一分析说明。

4.1 搜索引擎注册

在传统SEO过程中，网站管理员不用太担心网站的收录情况，在网站运行一定时间后搜索引擎的机器人会自动通过已被索引的外部链接发现该网站。而学术搜索引擎ASEO过程中，往往需要通过管理员在Google Scholar中对相关的服务进行注册，来通知机器人将其纳入爬取对象。有鉴于此，在研究所IR部署完成后：

（1）要求或者帮助研究所尽快在Google Scholar中完成其IR的注册和。在Google Scholar注册IR过程中，除了声明Google Scholar要求的收录原则外，还需要声明IR所用软件、论文数量、语种、访问地址。

（2）由于Google Scholar的PageRank算法对网络分类目录尤为重视，如果网站被ODP（.

[9]Page，L.，Brin，S.，Motwani，R.andet al.The PageRank Citation Ranking： Bringing Order to the Web[EB/OL].[2012-06-18].http：//citeseerxist psu.edu/viewdoc/summary？doi=10.1.1.31.1768.

[10]Dublin Core Collection Description Application Profile[EB/OL].[2012-05-10]. http：//www.ukoln.ac.uk/meta

data/dcmi/collection-application-profile/.

[11]Sitemap[EB/OL].[2012-05-18].http：//

/wiki/Sitemap.

[12]Rewrite engine[EB/OL].[2012-02-25].http：//en.wikpe

/wiki/Mod_rewrite.

作者简介：卢利农（1985-），男，中科院国家科学图书馆兰州分馆馆员；祝忠明（1968-），男，中科院国家科学图书馆兰州分馆研究员；张旺强（1985-），男，中科院国家科学图书馆兰州分馆馆员；刘巍（1980-），男，中科院国家科学图书馆兰州分馆馆员；姚晓娜（1985-），女，中科院国家科学图书馆兰州分馆馆员。

增强机构知识库内容发现和利用影响的策略与方法实践

常用范文

优秀范文

精选范文