一种内容和地点感知的个性化POI推荐模型

时间：2023-06-16 10:20:04　来源：雅意学习网本文已影响人

梁弼，刘笃晋，熊伦，许晓红

1）四川文理学院智能制造学院，四川达州 635000；
2）北京邮电大学计算机学院，北京 100876

近年来，随着移动网络的快速发展，智能设备和全球定位系统（global positioning system，GPS）位置服务的普及，位置社交网络（location-based social network，LBSN）成为一种流行的网络服务平台，如Google+local、Foursquare、Yelp、微信、微博和街旁等．用户通过LBSN平台以“签到”的形式发布自己实际位置或地理标记信息，如餐厅和景点等，并与朋友分享自己的访问体验和兴趣点（point of interest，POI）提示，从而产生了大量的用户签到数据．但是，这些海量POI信息造成的信息过载问题也严重干扰了用户对POI地点的筛选．对用户签到数据进行分析和挖掘并进行个性化的POI推荐，旨在帮助用户从海量POI数据中发现新的POI，探索到新的感兴趣内容，此过程即POI推荐，又称地点推荐或位置推荐，这是当今推荐系统领域内其中一个热门研究点［1］．

目前，LBSN中已有数百万个POI，但大多数用户往往只访问其中有限的几个，导致用户-POI交互矩阵数据极度稀疏，给POI推荐带来了严峻挑战．为应对这一挑战，许多学者利用地理影响［2］、内容信息［3］、社会关系［4］、时间效应［5］以及口碑［6］等多种上下文因素来解决该问题，也有学者提出元学习［7］、迁移学习［8］和小样本学习［9］等解决途径，并都取得了一些成效．然而，这些研究都缺乏对上下文因素之间的潜在关系及共同作用情况的分析和利用．本研究从内容和地点双重视角提出了一种采用概率生成方法的内容和地点感知的主题模型（content-location-aware topic model，CLATM），不仅策略性地整合了签到的文本内容信息、地点信息和地理位置等重要的上下文因素，而且深入挖掘不同因素之间的潜在关系，以期克服用户-POI矩阵数据的稀疏性，从而提升了POI推荐质量．本研究的主要贡献如下：

1）基于主题模型思想提出一种概率生成的CLATM模型，恰当地模拟了用户在决策过程中的签到行为及内容；

2）CLATM模型通过融合用户的签到内容、签到地点和地理位置等重要的上下文因素，以及它们之间潜在关系，有效缓解了用户-POI矩阵数据稀疏问题；

3）在Foursquare和Yelp两个真实的数据集上进行实验以评估CLATM性能，验证该模型的推荐效果．

1.1 模型描述

通常当用户决策签到某个POI时，会根据个人兴趣偏好来选择签到的POI，如POI的地点、所在位置和相关评论内容等信息，进而决策是否签到．为合理描述用户在决策POI过程中的签到行为，本研究从内容和地点双重视角提出了一种联合内容主题和地点主题的概率生成模型CLATM．该模型基于内容和地点感知，重点考虑签到内容、签到地点和地理位置等上下文因素，以及它们之间的潜在关系．用户签到内容依赖内容主题和地点主题，同时内容主题和地点主题在一定程度上决定了用户签到地点，而地理位置依赖于地点主题并服从高斯分布．图1为CLATM模型的结构图形化表示，表1则给出了该模型的部分主要参数定义．模型的输入数据包括用户的签到记录Du，以及先验分布α、σ、β、ζ、γ和δ．Du被建模为观察到的随机变量，如图1中的阴影圆圈所示．签到记录的内容主题z和地点主题r则被视为潜在随机变量．

表1 CLATM模型主要参数定义Table 1 Notations of CLATM main parameters

由图1可见，CLATM由内容主题建模和地点主题建模两个核心部分构成．首先进行内容主题建模．本研究根据用户签到的POI文本内容（如评论等）和地点信息（如地名）来推断用户u对一组内容主题z的兴趣分布θu（即用户对活动内容的偏好）．通过挖掘用户活动内容和活动地点的共现模式，并利用签到POI的内容与地点之间的关联关系引入签到地点来推断POI的内容主题z．从技术上讲，CLATM模型中的每个内容主题z不仅与文本内容上的多项式分布相关，且与地点上的多项式分布相关．这种设计使和在内容主题发现过程中通过关联它们来相互影响和增强，同时使所推断出的个人兴趣不仅是内容感知且是地点感知的．

图1 CLATM模型图的图形化结构Fig.1 The graphical model of CLATM.

采用类似方法进行地点主题建模．现实生活中，用户在决策活动地点时会考虑活动内容、活动地点及地理位置等因素．用ϑu表示用户u对地点的偏好，它是地点主题r上的多项式分布．r不仅与POI内容上的和POI地点上的相关，且与POI地理位置l～N(μr，εr)相关．这种设计使和N(μr，εr)在地点主题发现过程中通过关联它们来相互影响和增强，使所推断出的个人地点偏好更为准确，并进一步缓解稀疏的用户-POI矩阵．

这样，CLATM通过抽取内容主题和地点主题来更精准地捕获用户的POI偏好，并通过利用签到内容、地点和位置之间的潜在关系更有效地克服了数据稀疏性问题．为避免过拟合，将和上的Dirichlet先验分别被赋予参数α、σ、β、ζ、γ和δ．图2给出了CLATM模型的概率生成过程．

图2 CLATM概率生成过程Fig.2 Probability generative process in CLATM.

观测变量和潜在变量的联合分布为

其中，P(z|θ)为在内容主题多项式分布条件下可能签到的内容主题概率．CLATM模型的时间复杂度为O(||U×|Du|× ||W)．与未引入内容因素和地理因素等上下文信息前POI主题模型的时间复杂度O(|U|×|Du|)相比，虽然CLATM模型的时间复杂度有所增加，但后续实验证明CLATM模型能提高POI推荐的准确度．

1.2 参数估计

通过最大化观察到的随机变量v，l和W的边缘似然函数能够估计CLATM模型参数．又因直接最大化边缘似然函数比较困难，本研究遵循文献［6］的研究方法，即采用马尔科夫链蒙特卡洛方法使式（1）中的完全数据似然最大化．同时，对多项式分布采用共轭先验，可更容易对和进行积分．为简单起见，根据文献［6］设置α=50K-1，σ=50R-1，β=γ=ζ=δ=0.01．

在Gibbs抽样过程中，需获得用户u签到记录Du（u，v，l，W）的潜在内容主题z和潜在地点主题r的后验概率．

首先计算条件概率P(z|z¬u,v,r,v,l,W,u,·)．其中，z¬u,v为除当前记录外所有签到记录的内容主题．对式（1）使用贝叶斯链规则，得到条件概率为

其中，nu，z为从用户u的内容偏好分布中抽取潜在内容主题z的次数；
nz，w为从内容主题z中生成文本内容w的次数；
nz，v为从内容主题z中生成POIv的次数；
上标¬u，v表示不包括当前记录；
z＇为任一主题内容，z＇∈［1，||Z］；
w＇为任一文本内容，w＇∈［1，|W］|；
v＇为任一文本内容，v＇∈［1，|R］|．

然后，根据式（3）的后验概率对潜在地点主题r进行抽样．

其中，nu，r是从用户u的地点偏好分布中抽取潜在地点主题r的次数；
r＇为任一地点主题，r＇∈［1，|R］|；
nu，r＇为从用户u的地点偏好分布中抽取任一潜在地点主题r＇的次数；
nr，w是从地点主题r中生成文本内容w的次数；
nr，v是从地点主题r中生成POIv的次数．

每次迭代后，采用矩量法根据指定的潜在变量r更新Gaussian分布参数［10］，即

其中，E（r）为潜在地点主题r的平均位置；
D（r）为潜在地点主题r的位置协方差；
sr为指定潜在地点主题r的POI集合；
lv为签到地点v的位置．

经过足够多次的采样迭代，当CLATM模型达到收敛后，检查签到记录的z和r赋值计数，采用式（6）—式（11）的近似后验概率来估计CLATM模型参数．

1.3 POI推荐

2.1 实验设置

2.1.1 数据集

实验在Foursquare和Yelp两个真实的LBSN数据集上进行，它们的基本统计数据见表2［11］．

表2 Foursquare和Yelp数据集基本统计［11］Table 2 Basic statistics of Foursquare and Yelp datasets［11］

Foursquare数据集包含居住在美国的114508名用户的签到历史记录．每个用户数据集包含用户的社交网络、签到POI的身份标识号（identity document，ID）、每个签到POI的纬度和经度位置、签到时间和签到POI的评论内容．每个签到记录包含用户ID、POI-ID、POI位置和POI内容等［11］．

Yelp数据集包含英国的爱丁堡、德国的阿尔斯鲁厄、加拿大的蒙特利尔和滑铁卢，以及美国的匹兹堡、夏洛特、厄巴纳香槟、凤凰城、拉斯维加斯和麦迪逊共10个城市的366715名用户和61184个POI．它含有1569264个签到记录，每个签到记录同样保存为用户ID、POI-ID、POI位置和POI内容等［11］．

2.1.2 基准模型

将3种主流的POI推荐模型CARec［3］、Rank-GeoFM［2］和LCA-LDA［6］作为基准模型．

CARec是一个基于内容感知的POI推荐模型，充分利用用户签到记录中的评论内容捕捉用户对POI的内在偏好，再通过聚合用户的内在偏好，设计了一种自适应贝叶斯个性化排序方法，以此为用户生成个性化的POI排序列表．与CLATM模型相比，CARec忽略了地理因素及各上下文因素之间的潜在关系．

Rank-GeoFM是一种基于排序的地理因子分解模型，专门为个性化POI推荐而设计．它将签到频率表征为用户的访问偏好，通过对POI的正确排序来学习因子分解，并结合地理影响这一重要的上下文信息缓解了数据稀缺的问题．与CLATM相比，Rank-GeoFM忽略了内容因素及与其他因素之间的潜在关系．

LCA-LDA是一个位置-内容-感知的推荐模型，它为在外地旅游的用户支持POI推荐而开发．该模型利用POI的联合访问模式和POI内容，综合考虑了每个城市的个人兴趣和当地偏好．与CLATM相比，LCA-LDA忽略了上下文因素之间的多种潜在关系，而且只考虑了内容主题，未考虑地点主题，自然也没有联合两个主题建模．

2.1.3 评价指标

根据用户签到数据集Du给出用户画像，然后将80%的签到记录作为训练集Dtrain，20%的签到记录作为测试集Dtest．本研究分别在Foursquare和Yelp两个LBSN数据集上，采用POI推荐系统中常用的召回率（recall）和归一化折损累计增益（normalized discounted cumulative gain，NDCG）两个指标对CLATM模型的推荐效果进行评估．具体计算公式如式（13）—式（15）［12］：

其中，#hit@k表示测试集中的命中数（@k表示推荐列表中前k个记录）；
|Dtest|为所有测试用例的数目．

其中，上标reli为位置i上的相关度（实际推荐结果的排序与理想推荐结果的排序），若推荐结果在测试集中，则reli=1，否则，reli=0；
NDCG@k是长度为k的所有可能推荐列表的最大DCG@k值；
DCG@k为推荐列表前k个物品的折损累计增益情况．最终指标得分通过计算整个用户的recall@k（和NDCG@k）平均值来获得．

2.1.4 参数设置

通过在验证集上进行20多次的实验，得到CLATM超参数的最优值为：α=50K-1，σ=50R-1，β=γ=δ=ζ=0.01；
CARec参数的最佳值为：K=50，αU=αV=0.2，λP=λQ=0.2；
Rank-GeoFM超参数的最佳值为：C=1.0，ε=0.3，α=0.2，γ=1×10-4；
LCA-LDA超参数的最优值为：α=α＇=50K-1，β=β＇=0.01，γ=γ＇=0.5．

2.2 实验结果

2.2.1 推荐效果

图3和图4分别展示了CARec、Rank-GeoFM、Rank-GeoFM和CLATM模型在Foursquare和Yelp数据集上的Top-k性能，用以分析4种模型的性能．

图4 Yelp数据集上的Top-k性能（a）召回率；
（b）归一化折损累计增益Fig.4 Top-k performance on Yelp dataset.(a)Recall,(b)NDCG.

由图3可见，CLATM模型的recall值和NDCG值表现都优于CARec、Rank-GeoFM和Rank-GeoFM模型．例如，CLATM模型的recall@5和NDCG@5分别约为0.146和0.035，但CARec模型的recall@5和NDCG@5分别约为0.075和0.028．从图3可观察到如下结果：

图3 Foursquare数据集上的Top-k性能（a）召回率；
（b）归一化折损累计增益Fig.3 Top-k performance on Foursquare dataset.(a)Recall,(b)NDCG.

1）CARec模型性能低于Rank-GeoFM和LCALDA模型，这体现出利用多个上下文因素建模所带来的优势，因为CARec模型仅仅考虑了签到的文本内容，忽略了地理位置等其他上下文因素，而Rank-GeoFM和LCA-LDA模型考虑了至少两种不同的上下文因素．可见，融合多因素建模效果优于单因素建模．

2）CLATM和LCA-LDA模型的性能高于Rank-GeoFM模型．与CLATM和LCA-LDA模型相比，Rank-GeoFM模型未考虑签到的文本内容，这体现了包含文本内容信息的潜在主题模型的优越性．原因是某些用户的签到记录很少，Rank-GeoFM模型在此情况下存在严重的数据稀疏性，而CLATM和LCA-LDA是潜在的主题模型，并集成了文本内容信息，这在很大程度上克服了数据稀疏问题．

3）CLATM模型的性能优于LCA-LDA模型．尽管CLATM和LCA-LDA模型基本上都使用了相同类型的上下文因素，但前者的推荐准确率远高于后者，表明CLATM模型联合内容主题和地点主题建模的优势，它比LCA-LDA模型仅仅通过内容主题建模能更准确地获取用户POI偏好．同时上下文因素之间的多种潜在关系能有效缓解数据稀疏性，进一步提高了推荐的准确率．

图4 中4种模型在Yelp数据集上的recall值和NDCG值表现都与图3相似，但所有推荐方法的recall值和NDCG值都较低．这可能是因为Foursquare数据集中的用户平均签到记录比Yelp数据集中的多，使得各模型能够更准确地捕捉用户的兴趣偏好．

2.2.2 参数影响

CLATM模型中包括两类参数：一类是超参数α、σ、β、γ、ζ和δ；
另一类是内容主题数K和地点主题数R．本研究通过尝试通过不同的设置，发现CLATM模型的性能对这些超参数并不敏感，但对K和R都敏感．因此，本研究通过改变内容主题和地点主题的数量来测试CLATM模型在Foursquare和Yelp数据集上的性能，结果如图5．

由图5（a）可见，在Foursquare数据集上，CLATM模型的推荐准确率先随着内容主题数K的增加而增加，但当K＞50时，变化不再明显；
随着地点主题数R的增加，CLATM模型的推荐准确率也随之增加，但当R＞50时，其变化不大．本研究认为，主要原因是K和R代表了模型的复杂性，当K和R取值太小时，模型对数据的描述能力有限；
而当K和R取值超过阈值时，模型的复杂性足以处理数据．同样地，在Yelp数据集上进行类似的观察得到相似结果．可见，增加K和R对提高模型性能的帮助不大，但调整模型参数（如K、R）对CLATM模型的性能至关重要．需要说明的是，图3的实验结果是在K=50和R=50条件下实现的，图4的实验结果则是在K=50和R=70条件下得到的．

图5 参数K和R对模型性能的影响（a）Foursquare数据集；
（b）Yelp数据集Fig.5 Impact of parameters K and R on model performance.(a)Foursquare dataset,(b)Yelp data set.

从内容和地点双重视角提出一种概率生成的CLATM模型来模拟LBSN中用户的签到行为，该模型通过内容主题和地点主题联合建模方式恰当地融合了签到的文本内容、地点信息和地理位置等上下文因素，并挖掘出不同因素之间的潜在关系，有效克服了用户-POI矩阵数据稀疏问题．在Foursquare和Yelp两个典型的LBSN数据集上进行了推荐准确性和参数敏感性的实验，通过计算模型的recall和NDCG指标来评估模型性能．实验结果表明，与基准方法相比，CLATM模型的结果显示出其优越性．此外，通过实验发现，内容和地点两上下文因素之间的潜在关系在克服数据稀疏性方面起着主导作用．后续将进一步融合用户签到记录中其他上下文因素及它们之间的潜在关系，期望获得更优的推荐效果．

猜你喜欢集上建模因素 GCD封闭集上的幂矩阵行列式间的整除性四川大学学报（自然科学版）(2021年6期)2021-12-27联想等效，拓展建模——以“带电小球在等效场中做圆周运动”为例中学生数理化(高中版.高考理化)(2020年11期)2020-12-14解石三大因素中国宝玉石(2019年5期)2019-11-16R语言在统计学教学中的运用唐山师范学院学报(2018年6期)2018-12-25基于PSS/E的风电场建模与动态分析电子制作(2018年17期)2018-09-28不对称半桥变换器的建模与仿真通信电源技术(2018年5期)2018-08-23短道速滑运动员非智力因素的培养冰雪运动(2016年4期)2016-04-16师如明灯，清凉温润文苑(2015年9期)2015-09-10三元组辐射场的建模与仿真现代防御技术(2014年6期)2014-02-28几道导数题引发的解题思考新课程学习·中(2013年3期)2013-06-14

推荐访问:感知个性化模型