首页 > 范文大全 > 正文

科技文献中作者研究兴趣动态发现

开篇:润墨网以专业的文秘视角,为您筛选了一篇科技文献中作者研究兴趣动态发现范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:

针对挖掘大规模科技文献作者、主题和时间及其关系的问题,考虑科技文献的内外部特征,提出了一个作者主题演化(AToT)模型。模型中文档表示为一定概率比例的主题混合体,每个主题对应一个词项上的多项分布和一个随时间变化的贝塔分布,主题词项分布不仅由文档中单词共现决定,同时受文档时间戳影响,每个作者也对应一个主题上的多项分布。主题词项分布与作者主题分布分别用来描述主题随时间变化的规律和作者研究兴趣的变化规律。采用吉布斯采样的方法,通过学习文档集可以获得模型的参数。在1700篇NIPS会议论文集上的实验结果显示,作者主题演化模型可以描述文档集中潜在的主题演化规律,动态发现作者研究兴趣的变化,可以预测与主题相关的作者,与作者主题模型相比计算困惑度更低。

关键词:

主题模型;时序分析;无监督学习;文本模型;困惑度

0引言

科技文献资源的利用长期以来受到学术界的重视,早期的研究是利用传统的信息检索方法对科技文献进行计量分析、提供共享服务等。这些仅靠词频统计的方法难于发现文档中潜在的语义联系,无法满足用户对科技信息深层次的需求[1-2]。2003年,Blei等[3]提出了潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型,在挖掘海量文档数据隐含信息方面取得了很好的效果。在学术挖掘方面,对LDA模型的扩展已有大量的研究。RosenZvi等[4-5]在LDA模型中引入作者,用作者主题分布取代LDA模型中文档主题分布,提出作者主题(AuthorTopic,AT)模型,用于发现作者与主题之间的联系。在AT模型中,将文档按时间划分到不同的时间片内,然后计算不同时间点的作者、主题的后验概率可以分析作者、主题随时间的变化规律[6]。但这种方法在主题、作者采样时没有考虑时间的影响,而且分析效果取决于“时间粒度”的选择。Blei等[7]利用状态空间模型将时间因素加入LDA中提出了动态主题模型(Dynamic Topic Model, DTM),DTM模型将文档划分到不同时间窗口下,分析了主题随时间变化规律。在DTM基础上,Wang等[8]利用布朗运动模型提出了连续动态主题模型(continuous time Dynamic Topic Model, cDTM),解决了DTM模型时间片划分的问题。文献[9-10]研究了文档集中主题稀疏的问题。DTM等模型都是在马尔可夫假设的基础上分析主题演化规律,Wang等[11]不依赖于马尔可夫假设提出了Topics over Time(ToT)模型。ToT模型中每篇文档都有一个时间戳,看成连续的观察值,服从贝塔分布,主题词项分布的产生同时考虑单词共现和文档时间戳。ToT模型中时间是连续的,不需要考虑“时间粒度”选择的问题。上述模型分析的都是科技文献的内容,而科技文献的一些外部特征如作者等都没有涉及,不能分析文献作者的研究兴趣的变化情况。

结合AT、ToT模型提出了一个作者主题演化(AuthorTopic over Time, AToT)模型,用来分析科技文献中作者与主题的关系、主题随时间的变化规律。在AToT模型基础上可以有很多应用,如引导研究人员快速了解相关领域专家,跟踪专家研究兴趣变化;帮助政府机关即时寻找基金资助对象,编辑即时寻找审稿专家等。

1作者主题演化模型

作者主题演化模型是在作者主题模型中加入时间因素,主题的产生同时依赖于单词共现和文档时间戳。概率图表示如图1所示,符号说明见表1。

图1中环形表示观察值,圆形表示隐含变量,箭头表示变量的依赖关系,矩形表示重复次数[12]。AToT模型中,文档表示为一定概率比例的主题混合体,每个主题对应一个词项上的多项分布和一个随时间变化的贝塔分布,主题词项分布不仅由文档中单词共现决定,同时受文档时间戳影响,时间戳对应于这篇文档中的所有单词,服从贝塔分布。每个作者也对应一个主题上的多项分布。文档集中单词的产生过程描述如下。

3实验分析

3.1数据集及实验环境

使用的数据集是1987年到1999年NIPS(Neural Information Processing System)会议的论文全文,经过去停用词等预处理得到的文本数据包括:共1740篇文档,13649个词项,2301375个单词,2037个作者。实验环境是英特尔酷2双核E8400 3.00GHz处理器,4GB内存。一些参数设置为:主题数量固定为100,超参数设定为α=50/K, β=0.1,迭代次数为2000。上述条件下,Gibbs采样用时为4.5h(每8s完成一次迭代)。

3.2泛化能力分析

困惑度(perplexity)是评价模型泛化能力的标准指标,一般情况下困惑度值越小模型泛化能力越强。AToT模型困惑度计算公式如式(6)所示:

3.3主题演化分析

与AT模型中的实验一样,选取8个主题对实验结果进行说明,如表2和图3所示。表2说明了与每个主题相关概率最大的前5个词项和前5个作者。图3说明了每个主题在不同时间点研究强度的概率。

从表2和图3中可以看出,前6个主题分别与“EM和混合模型”、“手写字符识别”、“增强学习”、“支持向量机和核方法”、“语音识别”和“贝叶斯学习”相关;主题30的范围较宽泛,覆盖了NIPS会议中较多的议题;最后一个主题可能与多伦多大学Hinton研究组的一些研究相关。作者与主题的关系也有很好的描述,如“EM和混合模型”主题对应的前4个作者中,Bishop和Neal是模式识别与机器学习领域的著名专家,通过查找相关作者主页了解到,Marts和Williams等在统计机器学习相关领域做了大量研究工作。在图3中还可以看出,“增强学习”的概率值大说明受到的关注度高,在文档集时间后期(1998年、1999年)受到的关注度增长很快,而“贝叶斯学习”关注度下降。

4结语

结合AT、ToT模型提出了一个作者主题演化(AToT)模型,用于发现大规模科技文献集中作者、主题随时间变化的规律。模型中主题词项的概率分布由文档中单词共现和时间戳决定,采用Gibbs采样的方法,通过学习文档集获得模型参数。在1700篇NIPS会议论文集上的实验结果显示,AToT模型可以描述作者、主题的演化规律,与作者主题模型相比计算困惑度更低。本文假设文档集中主题数量是固定的,时间服从贝塔分布(单峰曲线),这与实际文本数据有一定的距离。下一步的工作集中在如何利用非参数估计[14]的方法解决上述问题。

参考文献:

[1]

刘桃,刘秉权,徐志明,等.领域术语自动抽取及其在文本分类中的应用[J].电子学报,2007,35(2):328-332.

[2]

韩红旗,朱东华,汪雪峰.专利技术术语的抽取方法[J].情报学报,2011,30(12):1280-1285.

[3]

BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, 3: 993-1022.

[4]

ROSENZVI M, GRIFFITHS T, STEYVERS M, et al. The authortopic model for authors and documents [C]// Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence. Arlington: AUAI Press, 2004: 487-494.

[5]

ROSENZVI M, CHEMUDUGUNTA C, GRIFFITHS T, et al. Learning authortopic models from text corpora [J]. ACM Transactions on Information Systems, 2010, 28(1): 4.

[6]

STEYVERS M, SMYTH M, ROSENZVI M, et al. Probabilistic authortopic models for information discovery [C]// Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2004: 306-315.

[7]

BLEI D, LAFFERTY J. Dynamic topic models [C]// Proceedings of the 23rd International Conference on Machine Learning. New York: ACM Press, 2006:113-120.

[8]

WANG C, BLEI D, HECKERMAN D. Continuous time dynamic topic models [C]// Proceedings of the 23rd Conference on Uncertainty in Artificial Intelligence. Arlington: AUAI Press, 2008: 579-586.

[9]

NALLAPATI R, DITMORE S, LAFFERTY J, et al. Multiscale topic tomography [C] // Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2007: 520-529.

[10]

IWATA T, YAMADA T, SAKURAI Y, et al. Sequential modeling of topic dynamics with multiple timescales [J]. ACM Transactions on Knowledge Discovery from Data, 2012 5(4): 19.

[11]

WANG X, MCCALLUM A. Topics over time: a nonMarkov continuoustime model of topical trends [C]// Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2006: 424-433.

[12]

徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1424-1437.

[13]

HEINRICH G. Parameter estimation for text analysis [EB/OL]. [20130425]. http:///publications/textest2.pdf.

[14]

ZHANG J, SONG Y, ZHANG C, et al. Evolutionary hierarchical Dirichlet processes for multiple correlated time [C]// Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2010:1079-1088.