基于可信度和语义相似度的网页信息甄选研究
发布时间:2017-06-16 00:12
本文关键词:基于可信度和语义相似度的网页信息甄选研究,由笔耕文化传播整理发布。
【摘要】:随着互联网技术的飞速发展,互联网已经成为一个巨大的、全球性的信息服务中心,成为人们获取信息知识的主要来源。但是,由于互联网的开放性、无界性等特点,使得互联网上的信息质量参差不齐,鱼目混杂,充斥着很多虚假、有误、无用等信息。在面对互联网上浩如烟海、良莠不齐的信息时,人们通常使用主流搜索引擎来查找自身所需信息。然而,主流搜索引擎作为商业工具,其搜索结果也不能使用户觉得特别满意:一方面,它不能保证信息质量可靠的网页都排在前面;另一方面,它可能包含大量重复和转载的网页。这极大地影响了用户获取信息的效率,同时也严重浪费了用户筛选信息的时间和精力。因此,本文提出基于可信度和语义相似度的网页信息甄选方法,旨在为用户减轻从互联网获取高质量和高可信度信息的负担,提高网页信息甄选的效率。本文首先在对国内外现有相关研究进行全面调查和系统分析的基础上,归纳总结相关的理论研究成果和技术方法;其次,重点构建本研究所使用的网页信息可信度评估指标体系,并将其划分为来源权威性、内容重要性和网页相关性三个层次,每个层次还设定多个具体的评价指标,通过专家打分法和层次分析法确定每个指标的权重,并给出可信度的计算公式;再次,本文在对网页内容和结构进行详细分析的基础上,重点研究分析基于DOM树结构的网页正文提取方法和实现过程,并将LDA主题模型应用到网页的语义相似度计算当中,提出基于LDA主题模型的网页语义相似度计算方法,详细研究其实现过程;最后,本文设计并实现基于可信度和语义相似度的网页信息甄选系统,详细分析系统各个模块的功能,并通过相关实验和结果分析,验证本文所提方法的有效性与实用性。
【关键词】:网页信息可信度 信息甄选 语义相似度 DOM LDA主题模型
【学位授予单位】:南京理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092;TP391.3
【目录】:
- 摘要5-6
- Abstract6-11
- 1 绪论11-25
- 1.1 论文研究背景与意义11-13
- 1.1.1 研究背景11-12
- 1.1.2 研究意义12-13
- 1.2 国内外研究现状13-20
- 1.2.1 网络信息可信度研究现状分析13-16
- 1.2.2 网页相似性研究现状分析16-19
- 1.2.3 网页信息甄选研究现状分析19-20
- 1.3 研究问题、内容与方法20-23
- 1.3.1 研究目标与问题20-21
- 1.3.2 研究的主要内容21-22
- 1.3.3 研究方法22-23
- 1.4 本文的创新点23
- 1.5 本文的内容组织结构23-24
- 1.6 本章小结24-25
- 2 研究的理论基础与技术方法25-39
- 2.1 网页信息可信度评估理论25-28
- 2.1.1 信息可信度的定义25-26
- 2.1.2 网页信息的属性和特点26-27
- 2.1.3 网页信息可信度的评估标准27-28
- 2.2 网页相似度计算理论与方法28-31
- 2.2.1 向量空间模型28-29
- 2.2.2 网页相似性特点29-30
- 2.2.3 相似网页识别的基本流程30-31
- 2.3 文本语义相似度计算方法与理论31-35
- 2.3.1 词语语义相似度与计算方法31-32
- 2.3.2 文本语义相似度计算的常用方法32-35
- 2.4 Web信息抽取方法与理论35-38
- 2.4.1 Web信息抽取的内涵35-36
- 2.4.2 Web正文信息抽取的主要方法36-38
- 2.5 本章小结38-39
- 3 网页信息可信度评估体系构建与计算方法研究39-54
- 3.1 网页信息可信度评估体系构建39-46
- 3.1.1 网页信息可信度评估指标分析39-42
- 3.1.2 可信度评估指标体系的构成研究42-46
- 3.2 网页信息可信度评估流程分析46-48
- 3.3 网页信息可信度计算方法研究48-53
- 3.3.1 可信度计算公式48-49
- 3.3.2 指标权重选取方法研究49-53
- 3.4 本章小结53-54
- 4 网页语义相似度计算方法与分析54-66
- 4.1 基于DOM的网页正文内容抽取研究54-61
- 4.1.1 网页内容和结构分析54-56
- 4.1.2 基于DOM的正文提取算法分析与实现56-61
- 4.2 基于LDA的网页语义相似度计算方法研究61-65
- 4.2.1 基于LDA的文本建模分析61-64
- 4.2.2 语义相似度计算研究64-65
- 4.3 本章小结65-66
- 5 系统设计与实验分析66-77
- 5.1 系统功能与结构设计66-69
- 5.1.1 实验环境介绍67-68
- 5.1.2 系统功能模块设计68-69
- 5.2 实验过程分析69-74
- 5.2.1 数据库结构设计69-70
- 5.2.2 系统主要界面分析70-74
- 5.3 实验结果分析74-76
- 5.4 本章小结76-77
- 6 总结与展望77-79
- 6.1 全文总结77-78
- 6.2 工作展望78-79
- 致谢79-80
- 参考文献80-84
本文关键词:基于可信度和语义相似度的网页信息甄选研究,由笔耕文化传播整理发布。
,本文编号:453896
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/453896.html