首页 > 范文大全 > 正文

通过F-测量的系数控制查全率与查准率的权重

开篇:润墨网以专业的文秘视角,为您筛选了一篇通过F-测量的系数控制查全率与查准率的权重范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:查全率和查准率是衡量检索质量的重要指标,对于衡量检索结果的F-测量给出确定的系数以实现允许用户根据需求选择查全率与查准率的权重。

关键词:查全率; 查准率; F-测量; 系数

1.查全率与查准率的定义

查全率和查准率是评价和衡量信息检索系统检索效果和功能的两项重要技术指标与重要参数[1]。

假设对于某次检索,a表示检出的与提问相关的文献数(被检出相关文献量),b表示检出的与提问无关的文献数(被检出误检文献量),c表示在检索中漏检的相关文献数(漏检文献量)[2]。

查全率 (1)

查准率 (2)

2.F-测量的定义

在实际测量当中,检索的质量同时受到查全率和查准率的影响,因此定义了F-测量,以F值直接评价检索质量。F-测量是衡量测试的准确性的一个重要指标,通过它对查全率和查准率的测试结果进行评分。f-测量即就是求查全率和查准率的加权几何平均值。传统的F-测量或者平衡的F-测量是一种对查全率和查准率的调和平均。F值定义公式如下:

(3)

成功的检索具有接近于1的F值,而不好的检索具有接近于0的F值,这样通过一个F值就可以评价检索质量的好坏。

3.在F-测量中添加系数控制查全率查准率权重

同时提高查全率和查准率是信息检索的最佳情况,然而通常情况下查全率与查准率之间存在互逆关系,提高查全率和提高查准率所采取的检索策略往往是相反的[2]。因此检索用户就需要做出选择,更加关注查全率还是查准率。

在公式(3)当中,查全率与查准率同等重要,然而在实际测量分析中,查全率和查准率往往重要性不同,为了实现能够允许用户指出他更关心查全率还是查准率,于是变化传统的F-测量计算公式如下:

(4)

上式是 测量的一个通式,其中α是一个预设的非负实数,是查全率和查准率的相对权重。α大于1时表示P更重要,α小于1时表示R更重要。在公式(3)中,α取值为1,此时查全率与查准率的权重是一致的,即查全率与查准率同样重要[3]。

4.根据查准率、查全率权重不同设置具体系数

在实际检索中,因为检索用户更关注检索出相关信息的尺度而非检索出的信息的准确度,因此大部分情况下查全率比查准率更为重要[4]。然而在不同情况中需求也不相同,通过调整α系数可以实现无论用户更侧重查全率还是查准率,均可通过F-测量来评价。下面给出两个推荐的α值,分别是2和0.5,即测量 和 测量。

当α为2时,公式(4)为: (5)

因为在分母中查准率要乘以4,所以在公式(5)中,查准率要比查全率更为重要。

当α为0.5时,公式(4)的形式为: (6)

在公式(6)中,查全率要比查准率更为重要。

5.小结

F-测量只是评价检索质量的方式,对改良查询结果做出指导。在不同的系数下,F值的值域也不相同,不能将不同系数的F值进行比较。除了2和0.5用户仍可根据需求自行设置α系数。在检索评价中,应摈弃查全率查准率同样重要的思想,以提高检索质量满足用户需求为最终目标设计检索策略。

参考文献

[1]易中梅. 应用检索实例谈谈信息检索的查全率和查准率[J],科技信息,2008(24),济南:363-364

[2] 余丹.关于查全率和查准率的新认识[J], 西南民族大学学报,2009(2),成都:283-285

[3] 李 璐, 江葆红, 孙红红. 如何提高文献信息检索中的查全率与查准率[J], 科技文献信息管理,2010(1), 西安:23-25

[4]Jimmy Donal Wales. Precision and recall[EB/OL], Wikipedia, San Francisco, 2012(6), en.省略/wiki/Precision_and_recall

[5] 王小利,曹导叶,王杉. 科技查新中查全率与查准率的辨析[J], 科技情报开发与经济, 2010(20), 太原:139-140