推荐系统在图书馆管理系统中的应用研究

VIP免费
3.0 陈辉 2024-11-19 5 4 1.12MB 57 页 15积分
侵权投诉
第一章 绪论
1
第一章 绪论
推荐系统,让网络生活更加个性化[1]
§1.1 选题背景和研究意义
随着我国国民经济总量的不断攀高,国家对图书馆等文化事业的投入经费也
逐年增加。图书馆每年可获得几十万至几百万元,甚至上千万元的经费投入[2]
图书馆的馆藏图书资源得到了极大地丰富。一所普通的高等院校的图书馆藏书量
往往都达到了百万册之余,而上海交通大学图书馆、北京大学图书馆的纸质藏书
量则分别达到 308 万册和 600 万册之巨。同时,图书馆的电子资源总量也在迅速
的增长。图 1-1 对安徽省皖西学院图书馆的电子资源总量进行了统计。
1-1 皖西学院图书馆电子资源总量统计图
1-1 中的柱形图例表示了该馆的电子资源总量,折线表示资源的平均增速
趋势线。该图反映了该馆的电子资源总量和增速都是逐年大幅增加的。
伴随着图书藏量的增加,图书馆也在不断地更新其服务模式,提高其技术手
段。读者查询图书的方式也在不断变化[3]。最初,图书总量比较少,读书是少数
知识分子的行为需求,读者可以呆在藏书楼(室)内不分学科专业地博览群书,
从中发现自己喜爱的图书与知识。当图书馆的藏书量达到上万册以后,读者就没
有那么的时间和精力去翻阅所有图书。这时图书馆根据《杜威十进制分类法》《中
国图书馆图书分类法》等对图书分类,进行有序的上架管理。读者在学习了相关
0
500
1000
1500
2000
2001年 2003年 2005年 2007年 2009年
源总量统计图
20 40 96
820
1800
年度
总量(单位:GB)
年度
平均增速
推荐系统在图书馆管理系统中的应用研究
2
的分类知识后,可以在相应类别的书架上找到自己满意的图书。进入 20 世纪 50
年代以后,图书馆将每本图书的题名、责任者、出版日期、索取号等信息著录在
书目检索卡片上。读者通过卡片检索,可以在短时间内快速的检索许多图书。进
7080 年代后,随着计算机的普及和数据库技术的发展,图书馆采用数据库对
书目数据进行管理。读者利用数据库的检索窗口可以快速、精确的检得自己想要
的图书。
而当图书馆的馆藏图书数量达百万册之多后,传统的检索技术已不能很好的
满足读者借阅需求。举例说明,本文在上海理工大学图书馆检索窗口中查询“高
等数学”后得到 881 条书目数据,查询“C语言”后得到 204 条数目数据,查询
“信息系统”后得到 134 条数目数据。可以想象,面对如此之多的结果,读者仍
然得花费大量时间去了解这些图书的内容区别,以确定更适合自己的图书。
读者过去常常抱怨图书馆的馆藏资源太少,想要找的书找不到。但是,如今
读者与图书馆之间的矛盾已经转变为面对大量的文献资源不知如何选择的问题。
矛盾产生的原因主要有以下三种:第一,当读者在图书馆管理系统中输入检索条
件后,系统总会给出多达几十、上百种的类似图书资源,面对这么多的图书列表,
读者不知道哪本图书较受其他读者欢迎,哪本图书更适合自己。而企图通过把这
些书都借出来翻阅一遍显然是需要消耗大量时间和精力的,因此是不现实的。甚
至常有读者反映在漫长的检索过程中往往被转移注意力,忘记了最初的借阅目标,
产生“信息迷航”给读者带来了无尽苦恼。第二,读者的兴趣也是在不断变化的,
当读者产生新的兴趣方向,又不知道该使用什么具体的题名、著者、主题词等检
索条件来进行检索,因此很难寻找到自己想要的图书,成为“信息缺乏”。第三,
图书馆的图书资源每天都在增加,读者不可能时时的关注新增图书,在现有的图
书管理系统中,读者必须每次亲自输入明确的题名、著者、出版社等检索条件时,
才能得到检索结果,系统不能主动的将读者想要的图书及时的推送给读者,只要
读者不检索,就得不到新书。同时,许多新增资源和非热点图书由于缺乏导读与
主动推荐而找到需它的读者成了“待嫁深囊中久处的暗息。
1-2 展示了在现有管理系统背景下读者与图书馆的矛盾:
第一章 绪论
3
1-2 读者与图书馆的矛盾示意图
为解决“信息迷航”的矛盾,读者要求图书馆的管理系统能对检索结果进行
过滤、评价、排序,这样读者可以重点对经过处理的推荐列表进行选择。为“信
息缺乏”的矛盾,读者要求系统能够识别获取其新兴趣爱好,并主动寻找相关的
图书进行推荐。为解决“暗信息”的矛盾,读者要求系统主动从新的图书资源中
发现其感兴趣的图书并进行推荐,这样新的图书会及时的得到借阅,读者与系统
的关系从被动变为主动。总之,读者迫切需要图书馆的管理系统能够为其主动的
提供经过评价排序的个性化的图书推荐服务。
图书馆的服务宗旨是“读者第一”快速、准确、主动、个性化地为读者提供
信息服务正在成为图书馆工作者理论探讨的热点和实践工作的侧重点。所谓个性
化是指系统针对读者建立个体的信息资源需求。个性化的本质是针对性,即对不
同的读者采取不同的服务策略,提供不同的服务内容。所谓主动性是指改变传统
的信息检索系统的被动服务模式,表现为不需要读者做什么,就能由系统自动按
照读者的信息需求提供相应的服务。
推荐系统(Recommender System)可以根据读者所提出的明确的信息需求,读
者的兴趣爱好、阅读历史,以及相关读者的评价指标等数据,推荐符合读者兴趣
读者获得满意图书的
目标明确,主动检
产生新的兴趣,目标不
没有主动检索
检索得到大量雷
同资源
不能区分优劣;
法确定自己喜爱哪
信息迷航
无法形成检索条
无法获得正确的
检索结果
信息缺乏
系统不主动检索
新书资源
新书资源无法获
得推送
暗信息
读者需求未获满足,矛盾
推荐系统在图书馆管理系统中的应用研究
4
的阅读对象[4]。推荐系统的最大特征是个性化和主动性。因此,本文对推荐系统
在图书馆管理系统中的应用加以研究。
§1.2 国内外研究现状
§1.2.1 推荐系统
推荐系统Recommender SystemRS作为一个独立的概念被提出来是在上
世纪 90 年代,之前一直被称为协同过滤Collaborative Filtering, CF[5]推荐系
统是一种在特定类型的数据库中进行知识发现的应用技术,使用多种数据分析技
术为用户更好的服务,向用户主动、及时、准确地提供所需信息,并能根据用户对推
荐内容的反馈进一步改进推荐结果[6]随着 Internet 的普及和电子商务的发展,
荐系统得到了越来越多研究者的关注[7-9]
推荐系统主要有三个模块组成:记录用户属性和行为的信息模块,分析用户
兴趣的模型模块,推荐算法的计算模块[10]第一模块负责记录用户的身份属性和
喜好行为,如:下载、购买、浏览等行为。第二模块主要就是通过这些用户的行
为记录分析用户的潜在喜欢产品和喜好程度。第三模块主要利用后台的推荐算法,
实时的从产品集合中筛选出用户感兴趣的产品进行推荐。它是整个推荐系统中最
为重要的模块。
推荐系统的技术主要分为基于内容的推荐算法和协同过滤推荐算法[10-11]。基
于内容的推荐算法主要利用文件特征向量的相似度计算,获得推荐目标的相似文
件,进而得到推荐结果。基于内容的推荐算法的缺点是对于非文本文件无法获得
特征向量,因此推荐效果较差。协同过滤推荐算法主要利用近邻用户,寻找目标
用户的潜在兴趣。协同过滤推荐算法的主要难点是相似用户的计算上,对于新用
户、新资源不能进行推荐。
近年来,推荐系统在图书馆的研究也逐渐增多。文献[12-13]通过对推荐算法
的研究,提出了基于评价矩阵的协同过滤算法和基于用户聚类的协同过滤算法,
提高了协同的推荐精度。文献[14]在分析关联规则算法的基础上,提出利用 HASH
表技术及减少生成候选集的数量对经典 Apriori 算法进行改进提高了图书馆数字
资源的利用率文献[15]馆藏读者的大借阅据,运用 Hebbian 法进
数据分析,进而向目标读者提供推荐列表。
文献[4]将推荐系统引入到图书馆,分析了适用于图书馆的推荐算法,建立了
高校数字图书馆的推荐系统的框架模型。文献[16-18]分别将推荐系统的建模方法
引入到读者建模,提出了:基于本体论的建模方法和基于分类的建模方法。文献[19]
第一章 绪论
5
在介绍了推荐系统的功能、原理、相关技术后,介绍了两个著名的图书推荐系统
实例:FAB 和人民大学图书馆个性化推荐系统。
但是,推荐系统在图书馆管理系统中的应用研究主要存在两个方面问题。第
一是针对图书馆管理系统的推荐系统研究仍显不足。推荐系统目前在 Amzone,
eBay, MovieLens, DangDang, GroupLens 等电子商务领域运用广泛,但是忽视了在
图书馆的应用。图书推荐系统的应用实例非常少。针对文献[19]提及的系统实例,
本文通过搜索查到其网址,却无法进入系统进一步体验。而相对于电子商务网站
的推荐商品而言,图书馆的图书著录规范,读者属性、借阅数据易于获得,读者
群体稳定性强,这样得天独厚的条件非常适合推荐系统的应用。因此,本文在为
图书和读者建模时,充分利用读者的身份信息,对其潜在兴趣赋予初值,有效地
避免了“冷启动”问题;同时,通过读者和图书的分类,降低了兴趣向量矩阵的
维度,较好的解决了“数据稀疏性”问题。并提出基于分类的协同过滤算法,降
低了系统计算量,提高了推荐效率。第二,一般研究图书推荐系统的文献侧重于
利用某种算法对图书馆的馆藏数据进行挖掘,很少研究图书推荐系统的架构、设
计等问题,本文从系统架构、用户界面设计对此加以补充。
§1.2.2 定题服务
图书馆在没有引入推荐系统之前,也会为读者提供个性化服务,即定题服务。
定题服务(SDISeleetive Dissemination of Information)也称定题情报服务,是图书
馆的学科馆员根据读者某个指定研究课题,搜集资料,推荐研究目录,分析研究
数据,综述研究文献,分析研究趋势的一种主动的、个性化的信息服务[20]SDI
因其个性化、专业化的服务形式深受读者喜爱。
随着网络和管理系统在图书馆的运用,读者检索速度提高了,信息来源更丰
富了。但是,定题服务在网络环境下也存在这一些问题[21]。比如,定题服务必须
面对面的交流沟通,受到时空的限制,没有网络方便;读者不能通过网络很全面、
很深入的表达自己的观点;系统无法向学科馆员那样深刻的掌握某一学科基础知
识和研究动态。因此,将传统 SDI 的问题通过推荐系统这一自动化的技术手段加
以解决,需要加强对图书推荐系统的应用研究,尤其是读者兴趣、需求的充分表
达与获取的技术研究。
§1.3 本文的研究内容
本文主要争对推荐系统中模型建立、推荐算法等关键技术进行了有益的探索
推荐系统在图书馆管理系统中的应用研究
6
和研究。本文的研究内容如下:
(1)在对推荐系统的定义、原理、分类等的研究基础上,对图书推荐系统的问
题进行定义和建模。根据模型,对图书推荐问题进行了求解,并将其解转化为读
者的推荐列表。
(2)在基于内容过滤的算法应用研究中,根据读者的兴趣属性建立读者文件,
计算读者文件与图书文件的相似度,再选取相似度值高的关联图书组成推荐列表
向读者进行推荐。该算法的重点是读者属性向量集的建模,难点是怎样获取读者
兴趣的兴趣向量,本论文应用了读者身份属性和借阅喜好来获得读者的兴趣向量。
(3)在协同过滤的算法应用研究中,主要建立读者兴趣文件,计算读者文件之
间的相似度,选择读者的最近邻居集,从最近邻居集中预测读者对图书的评分,
最终形成推荐列表。该算法的重点是确定读者的最近邻居集,难点是新读者的初
始评分计算问题。
(4)在基于分类的协同过滤算法研究中,解决了新读者的初始评分问题,根据
读者的借阅历史对读者进行分类,结合相关影响因子的分析,改进读者相似度的
计算公式。该算法可以有效的减少系统的计算量,提高计算速度,并提升推荐精
确度。并通过实例演示图书推荐系统的功能概况。
(5)在前面研究的基础上,运用信息系统开发与设计的相关理论,对图书推荐
系统的系统架构、功能模块和系统界面进行分析设计。
本文的技术路线如图 1-3 所示:
1-3 本文的技术路线图
基于内容过滤推荐系统应用研究
协同过滤的推荐系统应用研
基于内容过滤的图书推荐系
基于分类的协同图书推荐系
摘要:

第一章绪论1第一章绪论推荐系统,让网络生活更加个性化[1]。§1.1选题背景和研究意义随着我国国民经济总量的不断攀高,国家对图书馆等文化事业的投入经费也逐年增加。图书馆每年可获得几十万至几百万元,甚至上千万元的经费投入[2]。图书馆的馆藏图书资源得到了极大地丰富。一所普通的高等院校的图书馆藏书量往往都达到了百万册之余,而上海交通大学图书馆、北京大学图书馆的纸质藏书量则分别达到308万册和600万册之巨。同时,图书馆的电子资源总量也在迅速的增长。图1-1对安徽省皖西学院图书馆的电子资源总量进行了统计。图1-1皖西学院图书馆电子资源总量统计图图1-1中的柱形图例表示了该馆的电子资源总量,折线表示资...

展开>> 收起<<
推荐系统在图书馆管理系统中的应用研究.pdf

共57页,预览6页

还剩页未读, 继续阅读

作者:陈辉 分类:高等教育资料 价格:15积分 属性:57 页 大小:1.12MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 57
客服
关注