首页 > 范文大全 > 正文

一种基于协同过滤与语义分析的个性化网络广告投放方法研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇一种基于协同过滤与语义分析的个性化网络广告投放方法研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要: 针对个性化网络广告中网页与广告匹配的问题,通过将基于关键词扩展的语义分析技术引入到协同过滤系统中,提出一种基于协同过滤语义分析结合的个性化网络广告投放方法(CFKE)。该方法首先提取网页与广告文本的关键词,并对关键词扩展同义词;然后,计算网页扩展词与广告扩展词的相似度,并与扩展词的权重进行拟合抽取,得到网页与广告最终的相似度,将三维模型降维成二维模型;最后,再利用协同过滤方法进行匹配。仿真表明,与其他算法相比,该算法不仅具有较高的准确度,同时具有较好的系统响应能力。

关键词: 广告投放; 协同过滤; 语义分析; 相似度

中图分类号: TN911?34 文献标识码: A 文章编号: 1004?373X(2016)19?0107?04

Abstract: Aiming at the matching problems of webpage and advertisement in personalized network advertising, a personalized network network advertising method based on the combination of collaborative filtering and semantic analysis is proposed by introducing the semantic analysis technology based on keyword expansion into the collaborative filtering system. With the method, the keywords of webpage and advertising text are extracted for synonyms extension. And the similarity of webpage extension words and advertising extension words is calculated, and fitted and extracted with the weights of expansion words to obtain the final similarity of webpage and advertisement, and reduce the 3D model to 2D model. Then the collaborative filtering method is used to match with the similarity. The simulation results show that, in comparison with the other algorithms, this algorithm has higher accuracy, and better system response ability.

Keywords: advertising putting; collaborative filtering; semantic analysis; similarity

0 引 言

随着互联网的快速普及,网络广告的重要性日益显著。目前,网络广告是增长最快的媒体,其为互联网市场和用户创造了大量的直接和间接价值[1]。当前,个性化广告投放平台需要解决两个关键问题:一是如何嵌入与网页内容尽可能相关的广告,即投放的准确性问题;二是如何尽可能高效率地嵌入广告,即投放的高效性问题。广告投放的实时性决定了广告投放过程必须快速有效。然而,广告投放的准确性与高效性之间经常是相互矛盾的。已有的广告投放方法均难以在这两者之间取得较好的平衡[1]。

协同过滤技术主要依靠用户历史点击和用户偏好等行为数据上,算法较为简单,但是需要足够的用户个性化数据并能够合理识别用户,一旦数据不足,会极大影响算法的准确率[2]。基于上下文语义的方法,其主要依靠有效的内部语义知识库组织模型和准确高效的网页特征化方法,适用于用户信息匮乏或者有隐私保护的场景下,但是目前,准确率较高的算法往往较复杂,以至于效率较低;例如,关键字检索的匹配方法[3?4]能很好地保证广告投放的高效性,但难以保证其准确性;基于知库识的语义匹配方法[5?6]则相反,其准确性通常以牺牲效率为代价。

因此,在投放的准确性和高效性之间取得较好的平衡,设计一种既准且快的广告投放方法具有重要的科学意义及应用前景。本文结合基于协同过滤和基于语义分析的方法,在基于协同过滤方法的基础上,引入关键词扩展及其相关度的计算对系统进行补足,减弱冷启动问题并向用户提供更加精准的投放结果。

1 相关工作

1.1 协同过滤方法

个性化信息推送技术是基于推荐技术发展而出现的一种新型服务技术。协同过滤是推荐系统中相当成功的一项技术,在协同过滤中,用户获得的推荐结果是系统从用户购买或点击行为等隐式方式中获取的,不需要用户寻找适合自己兴趣的信息。其核心在于根据相似度获得来自邻居的推荐[7],对于基于用户的过滤来说,关键点在于相似邻居用户的选取以及相似度的计算。邻居用户之间相似度计算常见为余弦相似度,用户[u]和用户[v] 之间的相似性[sim(u,v)]由相似度公式可表示为:

1.2 基于文本语义的分析方法

语义分析是利用文本内部词汇的内在语义联系进行计算,主要思想是建立网页与广告匹配的相关性模型。在文献[5,8]中,网页与广告之间语义相似度的计算通常需要把文本表示成关键词向量的形式,然后利用语义知识库,如HowNet和WordNet等分析语义的关联图及相关性,以建立网页与广告文本的语义向量空间模型。

其中关键词抽取主要使用TF?IDF方法, TF?IDF的主要思想是:如果某个词或短语在文本中出现的频率TF高,并且在其他文本中很少出现,则认为此词或者短语具有很好的类别区分能力,其中TF是词频,表示词条在文本中出现的频率;IDF是反文档频率,表示一个词汇在文本集合中分布的度量。关键词[ti(lin)]在文档[Dj]中出现的次数为[TF(j,i),]IDF的计算公式为:

2.1 数据模型

定义1 以[Dj]表示进行广告投放的网页文档集合中的某文档;[Ki]表示关键词;[n]为关键词的个数;[Wj,i]表示对应关键词在该网页中的权重;[EKi]表示[Ki]的扩展词。使用向量模型表示广告页面特征向量[Dj=(Wj,1,K1),][(Wj,2,K2),…,(Wj,i,Ki),…,(Wj,n,Kn),]由[n]个文本关键词组成数据集[Keyword=K1,K2,…,Ki,…,Kn;]一个关键词的扩展实例表示为[EK=EK1,EK2,…,EKi,…,EKn,]其中[EKi(lin)]为一个关键词的具体扩展词。

定义2 将“用户?网页?广告”三维模型记作User?web?Ad模型,它是一个三维的向量空间{user,web,ad},每个维度分别用各自属性值组成的向量来表示。其中三者组成的一条记录称为偏好记录。偏好记录的集合叫做偏好数据集。在三维数据中,User为被推送广告的用户集合;web为User所浏览过的所有页面集合;Ad为待推荐给用户的所有广告集合。

2.2 算法设计思想

本文考虑在广告投放中,通常对语义特征化利用知识库生成语义特征向量,充实广告的内容特征表示,然而候选广告的文本篇幅通常较短,即包含的关键字较少,单纯的特征提取不能很好地反映候选广告的语义特征。并且,准确度较高的语义特征化方法,如文献[5,8]等采用语义关联图的分析方法较为复杂,以至于效率较低。利用词汇扩展技术对原有的关键词集进行补充,能够提高广告投放的准确性。

词汇扩展是指通过同义词典查找关键词的同义词或近义词,对原有的关键词集进行补充。词汇扩展首先要提取网页和广告文本中的关键词,关键词提取采用TF?IDF方法,表示文档[Dj]中第[i]个关键词的权重,[m]表示每个文档中关键词的个数。

得到关键词以后对其进行同义词的扩展,扩展的方法是计算关键词与扩展词之间的相似度,如果相似度达到一定的阈值,说明两词是同义词。关键词语扩展词相似度的计算采用基于词语距离的同义词识别算法。基于词林的词语相似度计算的核心在于对词语中的义项进行统一编号,然后根据两个义项语义的距离来计算义项的相似度,进而得到词汇的相似度。

在同义词词典中词语距离是度量两词关系的重要指标,相似度的计算先要判断在同义词林中作为叶子节点的两个义项在哪一层的分支,即两个义项的编号是在哪一层有不同。在分支层乘以相应的系数以后,然后乘以调节参数[cosnπ180,]该调节参数的作用是把相似度限定在取值范围内。词语所在树的密度以及分支的多少会直接影响到义项的相似度,密度较大的义项其相似度的值会比密度小的相似度的值精确[9]。因此,再乘以一个控制参数[n-k+1n,]其中[n]表示两词所在同义词词典中分支层的分支数,[k]表示两个分支之间的距离。这样把原本计算出的只对应在几点的值细化,精确计算结果。

利用网页与广告的语义相似度数值就可以预测浏览当前页面的用户对该页面的偏好数据。利用偏好数据就可以构建当前页面下的“用户?广告”二维矩阵模型。这样,“用户?网页?广告”三维的向量空间模型简化为二维矩阵。最后,利用协同过滤算法进行分析,协同过滤算法可针对用户偏好数据进行个性化的信息推送,得到个性化的网页广告匹配结果。

2.3 算法流程

本节在上述数据模型和设计思想的基础上,对算法的详细流程展开描述。

(1) 利用TF?IDF公式分别统计当前网页与待投放广告集合中的关键词,并利用词典对关键词进行扩展。然后,计算该扩展词在本文档中的权值,扩展词的权值由扩展词与关键词的相似度以及关键词原始权值决定。

(2) 构造“用户?网页?广告”的三维模型,当用户浏览某目标网页时,计算网页扩展词与广告扩展词的相似度,并与扩展词的权重进行拟合抽取,得到网页与广告最终的相似度,将三维模型降维生成二维的“用户?广告”模型。

(3) 由协同过滤算法确定目标用户[u]的邻居用户,预测用户[u]对待投放广告集合的偏好,将偏好最大的TOP?N个广告推荐给目标用户[u,]实现个性化的广告匹配。

3 实 验

3.1 实验环境及数据集

实验收集某门户网站某段时间广告的点击数据,为了减小稀疏度,从所有用户数据中选取点击广告较多的1 000名用户,其共在7 486个网页页面上具有点击广告行为,对应的广告有3 539条。用户点击广告即代表有兴趣,记录网页页面的ID和与之对应被点击广告的ID,就可将这1 000个用户的偏好数据作为数据集。在实验中,将1 000名用户分为10组,每组100名,起始先对100名用户数据进行分析,然后逐次递增至1 000。由于协同过滤方法依靠的是用户的历史数据,所以逐步增加用户数量便于观察用户数量对算法性能的影响情况。

每组实验将80%的用户的偏好数据作为训练集,20%作为测试集。例如,第一组的100名用户中涉及738个页面,对应356条广告。取80名用户的偏好数据作为训练集,涉及565个页面,对应262条广告;其他20名用户的偏好数据作为测试集,涉及173个页面,对应94条广告。

3.2 评测标准

本实验采用平均准确率MAP,召回率Recall以及平均匹配时间作为评测标准。MAP通过计算测试集中预测的用户点击情况与实际数据的点击情况进行评测,在实验中,如果系统匹配的结果与测试集中的结果相符,则认为投放结果准确。因此在测试机中,MAP为被准确投放广告的页面数量与测试集中的广告页面总数的比值。

召回率也叫查全率,可以表示为正确匹配的对象与样本集中所有相关对象的比值。在该实验中,召回率为测试机中被选中的广告数量与测试集中的广告页面总数的比值。

平均匹配时间反映投放广告时对系统反应时间的影响,因而能够反映出算法的效率。不考虑预处理的时间,如网页和广告数据的抓取,考虑分词,词汇扩展以及扩展词的权重计算等。

3.3 结果分析

实验对比传统协同过滤(CF),无位置偏见矩阵分解协同过滤算法(NPBCF)[2],基于向量空间模型的中文文本相似度方法(CN?SIM)[5],NPBCF是CF的改进方法,将页面和广告的特征融入矩阵分解中,更好地解决了数据稀疏性问题。CN?SIM采用提取文本特征分析语义关联的方法,对文本进行深度分析。

实验统计四种方法的MAP与召回率如图1,图2所示。通过MAP及召回率可得出算法的准确度情况。由图1,图2可得出,采用文本特征分析语义关联的CN?SIM方法准确度较高。由于协同过滤存在冷启动的问题,初始用户较少匹配结果较差,但随着用户数量的增加,准确率不断提高。本文设计的CFKE算法初始准确率与CN?SIM有较大差距,当用户增加至1 000名时,准确度与CN?SIM算法较接近。实验结果表明,本文设计的CFKE方法准确度比CF和NPBCF方法高。

实验统计的平均匹配时间如图3所示。从图3中可以看出,由于页面与广告规模不断增大,系统所需的查找时间相应增加,CN?SIM方法消耗的时间成倍增加,即效率急剧下降。但是相比之下,本文设计的CFKE算法匹配时间的增长率不大。

总体来看,采用提取文本特征分析语义关联的CN?SIM方法虽然准确度比本文设计的CFKE算法要高,但是随着用户数量的增加,效率会急剧下降,因而应用于大规模的系统中响应能力较差。传统的CF算法及其改进的NPBCF算法虽然效率比CFKE算法略高,但是准确率较低。综合来看,本文设计的CFKE算法在较高准确率的同时,具有较好的响应能力。

4 结 语

本文在协同过滤和语义分析方法相关研究的基础上,针对传统推荐方法难以应对数据稀疏的冷启动问题,以及上下文语义分析运行效率较低的特点,提出一种基于协同过滤与语义分析的结合个性化网络广告投放方法。该方法在基于协同过滤方法的基础上,引入关键词扩展及其相关度的计算,使该算法不仅具有较高的准确度,同时具有较好的系统响应能力,从而提高了投放的质量和用户的体验。

参考文献

[1] 宋乐怡,宫学庆,张蓉,等.在线广告投放系统及技术的演变[J].华东师范大学学报(自然科学版),2013(3):106?117.

[2] 霍晓骏.基于协同过滤的广告推荐研究[D].上海:华东师范大学,2014:70?77.

[3] 霍艳.网络广告投放算法的研究[D].沈阳:东北大学,2013:45?60.

[4] FAN T K, CHANG C H. Sentiment?oriented contextual advertising [J]. Knowledge and information systems, 2010, 23 (3): 321?344.

[5] 陈飞宏.基于向量空间模型的中文文本相似度算法研究[D].成都:电子科技大学,2011:65?78.

[6] HU J, FANG L J, CAO Y, et al. Enhancing text clustering by leveraging Wikipedia semantics [C]// Proceedings of 35th Annual ACM SIGIR Conference. New York: ACM Press, 2008: 179?186.

[7] 史玉珍,郑浩.基于协同过滤技术的个性化推荐系统研究[J].电子设计工程,2012,20(11):41?44.

[8] 唐果.基于语义领域向量空间模型的文本相似度计算[D].昆明:云南大学,2013:55?62.

[9] 田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报(信息科学版),2010,28(6):602?608.

[10] 王立才,孟祥武,张玉洁,等.上下文感知推荐系统[J].软件学报,2012,23(1):1?20.

[11] 段利国,陈俊杰.限定语义距离的关键词同义扩展及精简[J].计算机工程与应用,2011,47(23):13?16.