首页 > 范文大全 > 正文

内容挖掘的机遇和威胁

开篇:润墨网以专业的文秘视角,为您筛选了一篇内容挖掘的机遇和威胁范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

2011年二三月间,全球出版的研究智囊之一出版研究协会(PBC)委托两位荷兰研究者Eefke Smit和Maurits van der Graaf进行了一项有关期刊论文内容挖掘的研究工作。项目访谈了29位内容挖掘研究专家并针对学术出版商展开问卷调查,最终就内容挖掘的发展现状、利益相关者、政策和趋势等问题做出了回答。

所谓内容挖掘(content mining)是指为满足信息检索、信息提取或荟萃分析的需要而采用自动化的工具、技巧和技术来处理大量非结构化或非均一结构的数字内容。内容挖掘的应用范围很广,受到了从早期信息科学家和药物研发人员到近来市场营销人员、广告从人员、商分析师和法律从,人员的欢迎。举例来说,药物学家可以通过挖掘记载药物副作用的文献来发现药物的新用途;市场人员可以通过情感分析等挖掘技术来处理脸书、推特等社交媒介上的信息,从而了解人们对于产品或服务的真实态度。

内容挖掘经过了几个演化阶段(见图1):一开始主要通过识别书目数据来促进信息检索;当前的主流是通过与数据库相连的语义标签来完成实体识别;下一步关注的热点是实现信息提取,以揭示文献内(间)和内容库内(间)实体之间的关系;新兴的综合内容分析可根据应用目的和领域集聚不同形式的相关内容;而最有前景的应用,则是利用人工智能来发掘隐含的知识,即完成知识发现功能。专家们对于数据挖掘的态度并不相同:悲观者认为内容挖掘技术应用领域有限且高度分化,另外许多自动化工具都离不开人工干预;乐观者认为过去5―10年间标准术语集和识别工具等都有了长足发展,而且领域化有助于提升所获取信息的准确性和可重用性,因此反而是优势所在。

作为原始内容提供商,出版商对于内容挖掘可谓一则以喜、一则以惧。喜的是内容挖掘作为有用的工具,出版商同样可以利用它来提升自己产品和服务的质量。全球最大的几家学术出版集团,如爱思唯尔的SciVal、施普林格的SpringerMaterials数据库和汤森一路透的科学网平台等,都是利用数据挖掘技术来丰富自身信息产品和服务并提高其可获得性的典范。而在回复调查问卷的190位受访学术出版商中,也有50%-60%打算挖掘自家内容以改善信息导航,25%-30%拟提供语义标签,30%-45%计划藉此开发新产品。惧的则是第三方利用挖掘技术生成的衍生信息产品很有可能成为原始内容的替代品,从而将出版商置于信息产链的底端,收窄其赢利和生存空间。事实上,77%受访者曾收到第三方的内容挖掘请求,其中年出版期刊1000种以上者更有88%收到了此类请求;其中绝大部分收到的请求在每年10次以下,但数量呈上涨趋势。请求大部分来自文摘和索引服务提供商,还有少量来自公司客户以及科研机构和个人。总体而言,出版商们的态度相当开放。90%以上受访者曾同意出于研究目的的挖掘请求;32%允许各种挖掘请求而无需专门批准,其中28%实行了开放存取政策;14%公开了正式的数据挖掘政策,21%则正在制定。69%受访者逐件受理请求;80%会要求说明意图和目的,如果结果会导致替代和竞争,53%受访者会拒绝请求。

出版商在将来如何优化通用的内容挖掘解决方案上意见仍有分歧。30%出版商认为开放存取是内容挖掘的前提条件,50%则不同意此观点。人气指数(PI)排前3位的措施分别是:更加标准化的便于挖掘的内容形式(56PI),共享的内容平台(37PI)和得到普遍认可的内容挖掘许可规则(34PI)。但是除了第一条外,其他两条并未得到内容挖掘研究者的认可。另外,出版商和专家都不赞成由图书馆来实行数据挖掘。

综上,受访出版商清醒地意识到了第三方内容挖掘所带来的机遇威胁,如何抓住机遇、应对威胁将是全球出版商下一步需要深思和探索的迫切课题。(本文资料来自PBC的调查报告《期刊文章挖掘》)

(作者单位系武汉大学数字出版研究所)