基于维数约化的个性化推荐算法研究

VIP免费
3.0 牛悦 2024-11-19 4 4 1.21MB 67 页 15积分
侵权投诉
摘 要
负面评价具有稀缺性,这部分信息能够比正面评价信息更贴切地反映出用户
的兴趣点,具有更重要的研究价值。基于维归约的思想,本文通过对用户的评价
信息进行分类,分别利用用户的正面评价信息和负面评价信息,提出了一种新的
推荐算法结构。首先根据用户的打分信息将用户打分过的产品分为喜欢和不喜欢
的两类,然后利用用户喜欢的产品信息和用户不喜欢的产品信息分别构建用户—
—产品二分图网络,通过物质扩散算法分别得到用户的喜欢产品列表和用户的不
喜欢产品列表,最后利用用户的不喜欢产品列表识别并过滤用户的喜欢产品推荐
列表中可能存在的用户不喜欢的产品,最终得到精炼的、优化的推荐列表。基于
MovieLens 标准数据的实验结果显示,该算法可以显著提高推荐算法的准确性,
并且能够极大地减少推荐系统中的冗余信息,同时还可以明显改善推荐列表的多
样性和推荐新信息的能力。当数据稀疏度为 90%时,该算法可以使推荐列表的平
均排序打分降低 25.24%,达到已知的推荐算法准确度的最高值 0.077,当推荐列
表的长度为 10 时,相对不利用负面评价信息的算法,该算法可以降低推荐产品流
行性 23.85%,提高推荐列表多样性 16.08%,提升系统推荐新信息能力 28.83%。
该算法的核心在于利用用户的不喜欢产品信息精炼推荐结果,因此在提高推荐性
能的同时还大大降低推荐列表冗余度,可识别出不利用负面评价信息的算法所得
到的用户推荐列表中最多有 19.15%的产品都是用户不喜欢的。进一步地,我们改
变了数据集的稀疏度,继续考察了改进算法在不同数据稀疏度情况下的运行情况。
数据实验结果显示,随着数据集稀疏度的降低,该算法提高准确度和降低信息冗
余的能力都随之增强,有效解决了现实系统数据稀疏性的问题,在产品的流行性,
推荐列表的多样性,系统推荐新信息的能力等方面也有显著的改善效果。数值实
验结果显示,通过分类的方法分别处理用户的评价信息,特别是利用用户的负面
评价信息对于提高个性化推荐算法的效果至关重要。无论数据稀疏还是密集,该
算法都是迄今准确度表现最好的推荐算法,并且系统的信息冗余、推荐结果的个
性化表现以及带给用户的意外性也同时得到了明显地改善,同时该算法具有较低
的计算复杂度,可以极大地节省存储空间。
本文是国家自然科学基金项目(复杂动态网络的信息自动过滤问题研究,
号:10905052)成果之一。
关键词:推荐算法 维数约化 评分分类 二分图网络 物质扩散
ABSTRACT
As the scarcity of negative ratings, the negative information has a more important
research value, which can reflect the user's interest more appropriate than the positive
ratings. Based on dimensionality reduction,  this paper introduces new
recommendation algorithm architecture. First, according to the rating scores, the
algorithm divides all the objects rated by users into two categories, like one and dislike
one. Then, using both these two sets to construct user-product bipartite networks, by the
mass-diffusion-based algorithm, users’ recommended lists and dislikes list can be
obtained. Last, the dislikes lists are used to filter out the dislike objects in the
recommended list. The numerical results on MovieLens dataset show that the new
algorithm can greatly enhance the accuracy and reduce the redundancy, and also can
significantly improve the diversity and the ability of presenting fresh new information.
When the sparsity of dataset is set as 90%, the average ranking score of the
recommended list could be improved by 25.24%, to 0.077 which is the highest accuracy
of all known recommendation algorithm. When the recommended length is 10,
compared to the algorithm without using the negative ratings, this algorithm can reduce
the average recommended products popularity 23.85%, and the diversity and predicting
new information capability could be respectively improved 16.08% and 28.83%. The
core of the algorithm is using the dislikes list to refine the recommended list, 19.15%
dislike objects could be identified in the recommended list comparing to the algorithm
without using the negative ratings. Furthermore, by changing the sparsity of the dataset,
we find that the abilities of the algorithm to improve the accuracy and reduce
redundancy are enhance, and the diversity and predicting new information capability
could be improved significantly as well. Numerical results show that the negative
ratings are essential for improving the personalized recommendation algorithm. Either
sparse or dense dataset, the accuracy of this algorithm is the best so far. And the system
redundancy, the performance of the personalized recommended results and the ability of
presenting fresh new information, all these indicators could be significantly improved
by this algorithm. In addition, the algorithm has a lower computational complexity,
which can greatly save storage space.
This study is supported by National Natural Science Foundation of China under
grant No. 10905052.
Keywords: Recommendation algorithm, Dimensionality reduction,
2
Ratings division, Mass diffusion, Bipartite network
目 录
中文摘要
ABSTRACT
第一章 绪 论 ......................................................... 1
§1.1 选题背景及意义 ............................................. 1
§1.2 个性化推荐系统的发展现状及面临的问题 ....................... 2
§1.2.1 个性化推荐系统的发展现状 ............................... 2
§1.2.2 维数灾难带给个性化推荐系统的问题 ....................... 4
§1.3 维数约化的意义和方法 ....................................... 5
§1.3.1 维数约化 ............................................... 5
§1.3.2 维数约化在推荐算法研究上的应用 ......................... 6
1.4 本文的研究目的和主要内容 ..................................... 6
第二章 个性化推荐算法理论与方法 ...................................... 8
§2.1 协同过滤推荐算法 ........................................... 8
§2.2 基于内容的推荐算法 ......................................... 9
§2.3 基于网络结构的推荐算法 .................................... 11
§2.4 个性化推荐算法的评价指标 .................................. 13
§2.4.1 排序准确度 ............................................ 13
§2.4.2 推荐产品的流行性和推荐列表的多样性 .................... 13
§2.4.3 推荐新信息的能力 ...................................... 14
§2.4.4 信息冗余度 ............................................ 14
第三章 物质扩散推荐算法理论与方法 ................................... 16
§3.1 二分图网络模型的构建 ...................................... 16
§3.2 物质扩散推荐算法 .......................................... 17
第四章 基于维数约化的个性化推荐算法的设计与实现 ..................... 20
§4.1 考虑负面评价的个性化推荐算法设计思路 ...................... 20
§4.2 算法流程结构设计 .......................................... 21
§4.3 数值实验 .................................................. 23
§4.3.1 实验数据来源 .......................................... 23
§4.3.2 数据预处理 ............................................ 24
§4.3.3 考虑负面评价的个性化推荐算法程序设计 .................. 26
第五章 实验结果分析与评价 ........................................... 29
§5.1 数据稀疏度为 90%情况下实验结果分析 ......................... 29
§5.1.1 准确度 ................................................ 29
§5.1.2 推荐产品的流行性 ...................................... 29
§5.1.3 推荐列表多样性 ........................................ 30
§5.1.4 推荐新信息的能力 ...................................... 31
§5.1.5 信息冗余度 ............................................ 32
§5.2 不同数据稀疏度的实验结果对比 .............................. 33
§5.2.1 不同数据稀疏度情况下算法准确度的对比分析 .............. 33
§5.2.2 不同数据稀疏度情况下推荐产品流行性的对比分析 .......... 34
§5.2.3 不同数据稀疏度情况下推荐列表多样性的对比分析 .......... 35
§5.2.4 不同数据稀疏度情况下推荐新信息能力的对比分析 .......... 36
§5.2.5 不同数据稀疏度情况下信息冗余度的对比分析 .............. 37
第六章 总结与展望 ................................................... 39
§6.1 总结 ...................................................... 39
§6.2 展望 ...................................................... 40
............................................................... 42
参考文献 ............................................................ 60
在读期间公开发表的论文和承担科研项目及取得成果 ...................... 63
............................................................... 64
第一章 绪 论
1
第一章 绪 论
§1.1 选题背景及意义
宽带下载和互联网购物的时代降临之后,即使在最小的小镇,只要连上互联
网,我们面临的选择也在以每天成百上千的速度增加着,越来越多的人正遭遇着
选择性障碍。你是否经常对着网络书店里绵绵不绝的各种封面发呆,又或者头晕
脑胀地从琳琅满目的互联网百货网站仓皇而逃。然而,那些你会喜欢的东西却十
有八九会被淹没在各种选择中与你不知不觉的擦肩而过。媒体让各种流行书籍、
大片、潮品充斥着我们所生活的大街小巷,几乎无处不在。但萝卜青菜而有所爱,
不管娱乐评论家和书评作家多么公正勤勉,多么努力地探索、贴近大众喜好,他
们的帮助都不可能对所有人同样有效,对于那些兴趣独特的群体,老少咸宜的东
西总会显得力不从心。
随着信息资源逐渐丰富,互联网的蓬勃发展和 Web2.0 技术的日益成熟,面对
信息资源带来无限机遇的同时,我们步入了信息爆炸的时代。想要找到自己想了
解的东西,搜索引擎是绝大多数人的第一选择。那么在各种搜索引擎系统中搜索
用户想要了解信息的关键词吧,不用一秒就常常有数以百万甚至更多的信息猛然
呈现在用户面前。我们的问题是,接下来怎么办呢?如何从数以百万甚至千万的
信息中找到我们需要的信息?无论是利用优化的高级搜索,还是不断调整关键词
的组成,我们还是难以逃脱信息爆炸所带来的困境。以搜索引擎为代表的传统的
搜索工具,可以为用户提供浩瀚万千的信息,但却不一定能为用户提供准确的他
们期望得到的信息。并且对于那些具有迥然不同的搜索意向但搜索主题相同的用
户,搜索引擎只能提供一样的搜索结果。由于不能针对不同用户的需求提供相应
的服务,搜索引擎强大的搜索功能让用户陷入了信息超载的境地,海量信息让用
户无从选择,遍历所有搜索结果几乎是不可能的,那就更不用说找到用户自己需
要的感兴趣的信息了。另外,互联网这个巨大的信息资源库中存在的那些重要却
少有人问津的信息也容易被淹没在茫茫信息海洋之中。随着互联网规模的不断扩
大,信息的数量和种类不断快速增长,顾客需要花费大量的时间才能找到自己想
要的信息。这种浏览大量无关信息的过程会使淹没在信息超载问题中的用户不断
流失。因此如何准确识别用户的需求,帮助用户找到自己真正需要的信息成为信
息过滤技术的一大挑战。
为了解决这些问题,推荐系统(recommender system) [1-3],也称为个性化推荐
(personal recommendation)应运而生。个性化推荐系统被认为是信息爆炸时代解决
摘要:

摘要负面评价具有稀缺性,这部分信息能够比正面评价信息更贴切地反映出用户的兴趣点,具有更重要的研究价值。基于维归约的思想,本文通过对用户的评价信息进行分类,分别利用用户的正面评价信息和负面评价信息,提出了一种新的推荐算法结构。首先根据用户的打分信息将用户打分过的产品分为喜欢和不喜欢的两类,然后利用用户喜欢的产品信息和用户不喜欢的产品信息分别构建用户——产品二分图网络,通过物质扩散算法分别得到用户的喜欢产品列表和用户的不喜欢产品列表,最后利用用户的不喜欢产品列表识别并过滤用户的喜欢产品推荐列表中可能存在的用户不喜欢的产品,最终得到精炼的、优化的推荐列表。基于MovieLens标准数据的实验结果显示...

展开>> 收起<<
基于维数约化的个性化推荐算法研究.pdf

共67页,预览7页

还剩页未读, 继续阅读

作者:牛悦 分类:高等教育资料 价格:15积分 属性:67 页 大小:1.21MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 67
客服
关注