基于信息融合的Web信息可信度研究
发布时间:2017-05-08 16:13
本文关键词:基于信息融合的Web信息可信度研究,由笔耕文化传播整理发布。
【摘要】:当用户通过在网络上寻找自己需要的信息时,使用最多的工具是搜索引擎。然而作为商业工具,搜索引擎的结果也并没有让用户特别满意。当然用户可以自己逐一筛选找出有用结果。但是如果要进行Web信息融合,直接使用搜索引擎的结果会加大信息融合的工作量,甚至可能导致结果不准确。本文在这样的背景下提出了基于信息融合的Web信息可信度评估。 通过分析搜索引擎在网页可信度评估方面的不足,再根据Web信息的特点和信息融合的要求,得出影响Web信息可信度最重要的指标网页相关度。本文对网页相关度的计算进行了研究,构建了信息可信度评估指标体系,提出了可信度计算方法。 本文主要内容如下: 1.分析现阶段使用较多的计算网页相关度的算法,根据信息融合的特征,提出本文采用的算法词频位置加权排序算法。根据原有算法的缺点,提出改进设想。引入了TextRank模型来提取主题词,并在原有的TextRank模型基础上加入词语本身的位置权重。既引入了词语的语义概念,又考虑了词语所在网页的位置,提高了主题词提取的准确率。计算相关度时,将词语在提取主题词步骤计算出词语的权重引入公式中,还考虑了主题词与查询词的语义相似度。相关度计算考虑了词语间的语义关系、词语的频率和位置,使得计算更准确。 2.归纳了现有的信息可信度评估指标,通过分析搜索引擎在可信度评估方面的不足,构建了本文采用的信息可信度评估指标体系。从权威性、重要性、相关性三个方面来评估可信度,每个方面选取最相关的指标,提出了计算可信度的公式。通过这个公式计算的可信度是综合考虑了几种最有影响力最客观的指标,使得可信度的值也最接近信息融合的需要。 3.设计与实施了可信度评估系统来验证上述方法的有效性,并对结果进行了分析。结果表明,本文提出的算法具有一定的有效性和实用性。
【关键词】:信息可信度 信息融合 词频位置加权排序 TextRank模型 可信度评估体系
【学位授予单位】:中南大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092;TP202
【目录】:
- 摘要4-5
- Abstract5-7
- 目录7-9
- 1 绪论9-14
- 1.1 论文研究背景与意义9
- 1.1.1 论文研究背景9
- 1.1.2 论文研究意义9
- 1.2 国内外研究现状9-12
- 1.3 论文的重点和创新点12
- 1.4 论文组织结构安排12-14
- 2 Web信息可信度相关技术和理论分析14-23
- 2.1 信息可信度评估理论分析14-15
- 2.2 搜索引擎基本流程与原理15-17
- 2.3 基于链接分析的算法17-20
- 2.3.1 PageRank算法17-18
- 2.3.2 Hilltop算法18-19
- 2.3.3 HITS算法19
- 2.3.4 TrustRank算法19-20
- 2.4 基于内容分析和链接分析的算法20-22
- 2.4.1 Topic-sensitive PageRank算法20-21
- 2.4.2 ARC算法21
- 2.4.3 Average和Sim算法21-22
- 2.5 本章小结22-23
- 3 网页内容相关可信度计算算法研究23-39
- 3.1 网页相关度计算算法23-27
- 3.1.1 向量空间模型概念23-24
- 3.1.2 词频位置加权排序算法24-25
- 3.1.3 基于语义模型方法25-27
- 3.2 基于内容相关度算法的改进研究27-29
- 3.2.1 传统的内容相关度算法的缺点27-28
- 3.2.2 本文采用的内容相关度算法28-29
- 3.3 主题词提取算法改进29-36
- 3.3.1 主题词提取方法30-31
- 3.3.2 TextRank算法31-32
- 3.3.3 结合位置权重的TextRank算法32-36
- 3.4 相关度计算36-38
- 3.4.1 相关度计算公式36-37
- 3.4.2 算法分析37-38
- 3.5 本章小结38-39
- 4 Web信息可信度计算方法39-54
- 4.1 Web信息可信度指标体系39-49
- 4.1.1 Web信息可信度指标分析39-43
- 4.1.2 搜索引擎可信度评估分析43-45
- 4.1.3 可信度评估指标体系结构45-49
- 4.2 Web信息可信度评估流程49-51
- 4.3 可信度计算方法51-53
- 4.3.1 可信度计算公式51
- 4.3.2 指标权重选取方法51-53
- 4.4 本章小结53-54
- 5 可信度评估系统设计与实现54-63
- 5.1 系统设计54-57
- 5.1.1 实验环境介绍55
- 5.1.2 系统模块介绍55-57
- 5.2 实验过程57-59
- 5.2.1 数据结构设计57-58
- 5.2.2 主要界面58-59
- 5.3 实验结果分析59-62
- 5.4 本章小结62-63
- 6 总结与展望63-65
- 6.1 总结63-64
- 6.2 展望64-65
- 参考文献65-69
- 攻读学位期间主要研究成果69-70
- 致谢70
【参考文献】
中国期刊全文数据库 前10条
1 王晖;陈丽;陈垦;薛漫清;梁庆;;多指标综合评价方法及权重系数的选择[J];广东药学院学报;2007年05期
2 王立霞;淮晓永;;基于语义的中文文本关键词提取算法[J];计算机工程;2012年01期
3 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期
4 徐险峰,卢云;雅虎中国分类体系剖析[J];新世纪图书馆;2005年05期
5 李静月;李培峰;朱巧明;;一种改进的TFIDF网页关键词提取方法[J];计算机应用与软件;2011年05期
6 李鹏;王斌;石志伟;崔雅超;李恒训;;Tag-TextRank:一种基于Tag的网页关键词抽取方法[J];计算机研究与发展;2012年11期
7 原福永;张园园;;基于链接分析的相关排序方法的研究和改进[J];计算机工程与设计;2007年07期
8 支凤麟;徐炜民;;基于主题的个性化查询扩展模型[J];计算机工程与设计;2010年20期
9 朱宁;陈红勤;聂应高;;网络信息有效获取与可信度的案例分析[J];图书馆学研究;2009年11期
10 刘阳;张化祥;;基于结合内容特征的TrustRank算法改进[J];计算机工程与设计;2013年04期
本文关键词:基于信息融合的Web信息可信度研究,由笔耕文化传播整理发布。
,本文编号:351470
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/351470.html