基于网页浏览记录的用户兴趣挖掘及个性化推荐研究
VIP免费
摘 要
随着信息技术的迅速发展,Internet 成为一个规模巨大的、广泛分布的全球
信息服务中心,深刻地影响到了人们的生活、工作、学习等各方方面面。人们可
以在万维网上面进行各样的活动,比如搜索资料,听音乐,网上购物。与此同
时,虽然因特网改变了人们的生活方式,但是同样造成了“信息爆炸”——用户
越来越难在如此巨大的信息海洋中找到自己感兴趣的内容。“数据丰富,知识匮
乏”,面对这些海量的信息,如何克服这个“数字鸿沟”,如何能准确、快捷、
高效的获取有用信息,让人人都公平地享有信息资源,无疑是人们关注的一项问
题,同时也是一个全球性难题。用户对互联网的浏览行为,是人们获取信息的一
种重要方式,每次访问大都具有一定的访问动机,蕴藏着用户的某种兴趣。通过
分析这些网页的浏览记录,对个性化服务技术等方面具有很大的实际应用价值。
我们可以通过对总的用户访问行为、频度、内容等进行分析,可以得到关于
群体用户访问行为和方式的普遍知识,用复杂网络的方法来研究群体兴趣网络的
结构和演化特征,构建网页浏览的人类动力学模型。网站的活动模式给人类动力
学提供了重要信息。
根据用户访问网站记录,建立用户-网站二部图。然后分别对用户和网站进
行投影,得到两个单模式网络——用户网络和网站网络,通过计算节点间的相似
度来确定边的权值。最后对用户网和网站网进行了度分布、平均最短路径、平均
群聚系数以及点强度等拓扑参数的计算,证实了该网络是无标度网络,且具有
“小世界”效应。
本文提出一种改进的模糊 C 均值聚类算法,通过实验可知该算法较传统算法
在聚类质量上有了一定的提高。传统的关联规则算法不能反映出用户对某个页面
的兴趣度,因此在传统算法基础上加了页面兴趣度因素,较之前的算法更能反映
出用户的兴趣。结合改进的模糊聚类算法和关联规则算法,提出一种新的混合推
荐算法模型,在理论上该算法减少了运算复杂度,同时也增加了推荐准确率。最
后,总结了本文的不足以及展望未来的研究发展方向。
关键词:复杂网络 二部图网络投影 聚类 关联规则 个性化推荐
ABSTRACT
With the rapid development of the Internet technology in the last decade, the Internet
is becoming a large and wide global information service center. It has impacted on
people’s life, work, and study and so on. People can do many things on the World Wide
Web, such as searching for material, listening to the music, shopping online and so on.
At the same time, although the Internet has changed the way of people’s life, also
caused the information explosion that the users have become more and more difficult in
such great information ocean to find the information they are interested in. “Lack of
knowledge, rich data”, how to accurate, fast and efficient to get the useful information,
to let everyone fair to enjoy the information resources. It is undoubtedly one of the
people’s difficult problems. The behavior of users browsing internet is an important
way for people access to the information, and every visiting has certain motivation
mostly, containing the users’ some interests. Through analysis these web browsing
history, it has great practical value for the personal recommendation.
We can analysis the users accessing behavior, frequency and content by the internet
browsing history, to get about the common knowledge of the group users’ visiting
behavior and way. Study the structure of the group interest network and evolution
features, to build the human dynamic model of browsing web. The activities of the
website provide human dynamics model important information.
The Bipartite network of user-website network is built by analysing the internet
browsing history. Secondly, it builds two networks of users and websites by mapping
the users and websites respectively. The value of edge is the similarity of two nodes. By
calculating the topological parameters, including degree distribution, average shortest
path length, average clustering coefficient and node strength, the conclusion is that both
the network of users and network of websites are scale-free networks with small world
effect.
This paper puts forward an improved fuzzy c-means clustering algorithm. It is known
that the new algorithm in clustering quality has improved than the traditional by the
experiment. The traditional association rules algorithm can't reflect a page interest
degree for the user. So, providing the interest degree of the page based on the traditional
algorithm can more reflect the users’ interest. Combining with the improved fuzzy
clustering algorithm and association rules algorithm, this paper proposes a new hybrid
recommendation model. This algorithm not only can reduce the computational
complexity, but also can increase a recommended accuracy in theory. Finally, it is the
shortcomings of our method and our future work that presents.
Key words:complex network, bipartite network projection, cluster,
association rules, personal recommendation
目 录
中文摘要
ABSTRACT
第一章 绪 论 ....................................................... 1
§1.1 研究背景及其意义 ........................................... 1
§1.2 国内外研究现状 .............................................. 2
§1.3 本文的主要工作 .............................................. 3
第二章 相关背景理论简介 ............................................ 5
§2.1 复杂网络理论简介 ............................................ 5
§2.1.1 单模式网络基本统计属性 .................................5
§2.1.2 二部图网络的投影 .......................................8
§2.2 人类动力学理论简介 ......................................... 10
§2.3 模糊 C 均值聚类算法 ......................................... 12
§2.4 个性化推荐算法简介 ......................................... 13
§2.4.1 基于内容的推荐系统 ....................................13
§2.4.2 基于规则的推荐系统 ....................................13
§2.4.3 基于协同过滤的推荐系统 ................................14
§2.4.4 混合推荐算法的推荐系统与推荐系统的衡量指标 ............15
第三章 用户浏览记录的规律性统计研究 ............................... 17
§3.1 访问量的统计分析 ........................................... 17
§3.1.1 一周内所用用户的访问量 ................................17
§3.1.2 一个月内访问累积的用户量 ..............................18
§3.1.3 网站中不同类节点的访问量 ..............................18
§3.2 用户访问网页的时间间隔分布 ................................. 21
§3.3 用户访问网页的主导兴趣 ..................................... 23
§3.4 本章小结 ................................................... 24
第四章 用户-网站的二部图研究 ...................................... 25
§4.1 二部图模型以及投影 ......................................... 25
§4.2 网络中的统计属性 ........................................... 27
§4.3 实证结果 ................................................... 27
§4.4 本章小结 .................................................. 36
第五章 改进的模糊聚类算法以及个性化推荐 ........................... 38
§5.1 改进的模糊聚类算法 ......................................... 38
§5.1.1 聚类数以及初始聚类中心选取的改进 ......................38
§5.1.2 进隶属度的改进 ........................................39
§5.1.3 目标函数选取的改进 ....................................39
§5.1.3 模糊 C-均值算法改进具体实现 ........................... 40
§5.1.3 实验结果以及分析 ..................................... 40
§5.2 一种个性化推荐算法模型 ..................................... 43
§5.2.1 页面兴趣度 ............................................43
§5.2.2 基于页面兴趣度的关联规则算法 ..........................43
§5.2.3 个性化推荐算法模型 ....................................44
§5.3 本章小结 .................................................. 45
第六章 结论与展望 ................................................. 46
附录 ................................................................ 48
参考文献 ............................................................ 53
在读期间公开发表论文和承担科研项目及取得的成果 ...................... 56
致 谢 ............................................................. 57
第一章 绪论
1
第一章 绪 论
本章首先介绍了本论文课题的研究背景以及实际意义,然后介绍了国内外对
此课题的研究现状,最后给出了本论文的主要研究工作和组织结构。
§1.1 研究背景及其意义
随着信息技术的迅速发展,Internet 成为一个规模巨大的、广泛分布的全球
信息服务中心,深刻地影响到了人们的生活、工作、学习等各方方面面。人们可
以在万维网上面进行各样的活动,比如搜索资料,听音乐,网上购物。与此同
时,虽然因特网改变了人们的生活方式,但是同样造成了“信息爆炸”——用户
越来越难在如此巨大的信息海洋中找到自己感兴趣的内容[1]。“数据丰富,知识
匮乏”,面对这些海量的信息,如何克服这个“数字鸿沟”,如何能准确、快
捷、高效的获取有用信息,让人人都公平地享有信息资源,无疑是人们关注的一
项问题,同时也是一个全球性难题。用户对互联网的浏览行为,是人们获取信息
的一种重要方式,每次访问大都具有一定的访问动机,蕴藏着用户的某种兴趣。
通过分析这些网页的浏览记录,对个性化服务技术等方面具有很大的实际应用价
值。
图1-1 因特网在中国的发展(来自百度图片)
近年来,复杂网络理论得到了广泛的发展,我们真实世界中有很多系统可以
用网络来描述,例如 Internet、社会关系网络、学术合作网络以及公共交通网络等
等[2~5]。大量实证研究表明,现实中的网络既不是规则网络,同样也不是随机网
络,而是具有小世界和无标度等统计特性的网络。复杂网络的研究成果大多数也
摘要:
展开>>
收起<<
摘要随着信息技术的迅速发展,Internet成为一个规模巨大的、广泛分布的全球信息服务中心,深刻地影响到了人们的生活、工作、学习等各方方面面。人们可以在万维网上面进行各样的活动,比如搜索资料,听音乐,网上购物。与此同时,虽然因特网改变了人们的生活方式,但是同样造成了“信息爆炸”——用户越来越难在如此巨大的信息海洋中找到自己感兴趣的内容。“数据丰富,知识匮乏”,面对这些海量的信息,如何克服这个“数字鸿沟”,如何能准确、快捷、高效的获取有用信息,让人人都公平地享有信息资源,无疑是人们关注的一项问题,同时也是一个全球性难题。用户对互联网的浏览行为,是人们获取信息的一种重要方式,每次访问大都具有一定的...
相关推荐
-
VIP免费2025-01-09 4
-
VIP免费2025-01-09 4
-
VIP免费2025-01-09 4
-
VIP免费2025-01-09 4
-
VIP免费2025-01-09 4
-
VIP免费2025-01-09 5
-
VIP免费2025-01-09 4
-
VIP免费2025-01-09 4
-
VIP免费2025-01-09 5
-
VIP免费2025-01-09 4
作者:牛悦
分类:高等教育资料
价格:15积分
属性:60 页
大小:2.06MB
格式:PDF
时间:2024-11-19