基于词义相似度的文本推荐系统的研究与实现
本文关键词:基于词义相似度的文本推荐系统的研究与实现
更多相关文章: 文本推荐 词义相似度 同义词网络 链路预测 推荐系统
【摘要】:随着信息技术的不断发展,由海量文本信息造成的“信息过载”现象越发严重,如何在海量数据中高效的获取目标文本成为了目前信息检索领域的研究重点。基于内容的文本推荐系统是指从用户历史阅读文本信息中提取用户兴趣,然后以此为依据从文本库中将用户可能感兴趣的文本推荐给用户的一种个性化信息检索系统,相比于传统搜索引擎,该系统能够高效的满足用户对个性化信息的需求。但是目前常见的文本推荐算法仅考虑了特征词词形的严格匹配,未考虑语境对词形的影响以及不同词形之间的同义关系。针对该问题,本文研究并实现了基于词义相似度的文本推荐系统。本文的主要工作为:1.一般在向文本推荐引入同义关系时,弱同义词关系及多义词关系会在计算用户兴趣和文档特征相符程度过程中引入误差,降低推荐效果,鉴于此,本文借鉴链路预测思想,从网络结构特征的角度优化同义词网络,提出了基于链路预测的强同义词网络获取方法。2.在强同义词网络的基础上,本文结合最短路径、最优匹配算法,在文本推荐中引入强同义词关系,并应用词干提取技术消除不同语境对词形的影响,提出了基于强同义词网络的文本推荐算法。3.以基于强同义词网络的文本推荐算法为核心,应用IOCP通信模型、多客户端多服务器C/S架构、负载均衡等技术手段,本文设计并实现了基于词义相似度的文本推荐系统。本文首先研究了信息检索模型以及结构化表示文本的方法,结合应用需求选择了合适的信息检索模型与文档预处理技术;实现了基本的基于内容的推荐方法及系统;在此基础上探究了在文本推荐算法中引入同义词关系的途径,鉴于弱同义词关系以及多义词关系对推荐系统的影响,本文从网络结构特征的角度借鉴链路预测的思想提出了强同义词网络的获取方法;随后以基于内容的推荐算法为基础,提出了基于强同义词网络的文本推荐算法,通过仿真验证了其推荐效果的提升;最后以该算法为核心设计并实现了基于词义相似度的文本推荐系统。
【关键词】:文本推荐 词义相似度 同义词网络 链路预测 推荐系统
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
- 摘要5-6
- ABSTRACT6-13
- 第一章 绪论13-17
- 1.1 研究工作的背景与意义13-14
- 1.2 国内外研究现状14-15
- 1.3 论文的主要工作与结构安排15-17
- 第二章 相关技术研究17-32
- 2.1 信息检索模型与文本的结构化表示17-21
- 2.1.1 信息检索模型17-19
- 2.1.2 文本特征提取方法19-21
- 2.2 个性化推荐算法21-24
- 2.3 词语语义相似度算法24-27
- 2.4 链路预测算法27-31
- 2.5 小结31-32
- 第三章 基于链路预测的强同义词网络获取方法32-53
- 3.1 基于内容的文本推荐方法存在的问题32-33
- 3.2 强同义词网络获取方法33-44
- 3.2.1 同义词网络构建33-37
- 3.2.2 基本的强同义词网络获取方法37-41
- 3.2.3 应用迭代删边策略的强同义词网络获取方法41-44
- 3.3 实验分析44-52
- 3.3.1 强同义词网络的评价指标45-46
- 3.3.2 实验论证46-52
- 3.4 小结52-53
- 第四章 基于强同义词网络的文本推荐算法53-69
- 4.1 文本推荐系统方案53-55
- 4.1.1 文本预处理模块53-54
- 4.1.2 用户模型构建模块54-55
- 4.2 文本推荐算法55-62
- 4.2.1 词干还原问题57
- 4.2.2 基于强同义词网络的同义关系获取方法57-59
- 4.2.3 特征向量间的同义关系强度衡量方法59-61
- 4.2.4 结合同义词关系的向量相似度计算方法61-62
- 4.3 仿真分析62-68
- 4.3.1 推荐性能评价指标62-63
- 4.3.2 仿真验证63-68
- 4.4 小结68-69
- 第五章 基于词义相似度的文本推荐系统的设计与实现69-79
- 5.1 基于词义相似度的文本推荐系统的总体设计69-71
- 5.2 各模块设计与实现71-77
- 5.2.1 界面层设计与实现71-72
- 5.2.2 通信层设计与实现72-75
- 5.2.3 业务层设计与实现75
- 5.2.4 数据层设计与实现75-76
- 5.2.5 支撑单元设计与实现76-77
- 5.3 系统展示77-78
- 5.4 小结78-79
- 第六章 总结与展望79-81
- 6.1 论文工作总结79
- 6.2 工作展望79-81
- 致谢81-82
- 参考文献82-86
- 攻读硕士学位期间取得的成果86-87
【共引文献】
中国期刊全文数据库 前10条
1 马宁;刘怡君;;基于超网络中超边排序算法的网络舆论领袖识别[J];系统工程;2013年09期
2 马宝君;张楠;孙涛;;智慧城市背景下公众反馈大数据分析:概率主题建模的视角[J];电子政务;2013年12期
3 易军凯;田立康;;基于类别区分度的文本特征选择算法研究[J];北京化工大学学报(自然科学版);2013年S1期
4 代宽;赵辉;韩冬;宋天勇;;基于向量空间模型的中文网页主题特征项抽取[J];吉林大学学报(信息科学版);2014年01期
5 吴瑞红;吕学强;;基于互联网的术语定义辨析[J];北京大学学报(自然科学版);2014年01期
6 罗琦;;一种最大分类间隔SVDD的多类文本分类算法[J];电讯技术;2014年04期
7 方跃胜;姚宏亮;;基于电力公司的多格式文档智能信息检索系统的设计与实现[J];重庆科技学院学报(自然科学版);2014年04期
8 李超;李昂;朱耿良;;基于限制性玻尔兹曼机的微博主题分类[J];电信网技术;2014年07期
9 黄永锋;李奇;;基于特征项聚合的古典诗歌分类模型[J];东华大学学报(自然科学版);2014年05期
10 徐晓彤;胡松筠;;社交网站用户兴趣模型研究[J];科技和产业;2014年11期
中国重要会议论文全文数据库 前1条
1 刘权;郭武;;基于核主成分分析的话题跟踪系统[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
中国博士学位论文全文数据库 前10条
1 王宝勋;面向网络社区问答对的语义挖掘研究[D];哈尔滨工业大学;2013年
2 张俊三;Web中相关实体发现研究[D];北京交通大学;2013年
3 张乃静;基于林业科学数据的语义检索研究[D];中国林业科学研究院;2013年
4 刘浏;基于内容的重排列视频检索技术研究[D];上海交通大学;2013年
5 吕英杰;网络健康社区中的文本挖掘方法研究[D];上海交通大学;2013年
6 张琦;基于聚合场模型的数据竞争算法及其应用研究[D];哈尔滨工程大学;2013年
7 谭琦;面向跨领域文档分类的异构迁移学习算法研究[D];华南理工大学;2013年
8 张琳;基于引用聚类的多文档自动文摘技术研究[D];大连海事大学;2013年
9 萧筝;客户需求信息处理理论和方法研究[D];武汉理工大学;2013年
10 张莹;在线新闻评论的情感分析研究[D];南开大学;2013年
中国硕士学位论文全文数据库 前10条
1 谢娜娜;基于不均衡数据集的文本分类算法研究[D];重庆大学;2013年
2 王强;非均衡文本分类的特征选择研究[D];南京师范大学;2013年
3 项峻求;文本分类在电子政务平台中的应用与研究[D];南昌大学;2013年
4 余峰;项目评审专家推荐方法研究[D];昆明理工大学;2013年
5 张睿;基于SVM的中文文本分类相关算法研究与实现[D];昆明理工大学;2013年
6 张健飞;子空间分类算法研究及应用[D];福建师范大学;2013年
7 杜娟娟;主题爬虫算法的研究与实现[D];兰州交通大学;2013年
8 许钰;基于半监督SVM主动学习的文本分类算法研究[D];兰州交通大学;2013年
9 陈华城;基于本体的文档敏感信息检测关键技术研究[D];解放军信息工程大学;2013年
10 陈永光;基于OPAC的高校图书馆个性化图书推荐算法研究[D];南京理工大学;2013年
,本文编号:894712
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/894712.html