当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于语义的Web信息自动聚合系统的关键技术研究

发布时间:2017-11-05 04:40

  本文关键词:基于语义的Web信息自动聚合系统的关键技术研究


  更多相关文章: 信息聚合 LDA 正文抽取 潜在语义


【摘要】:近年来,随着社会网络及个人博客、微博的成功,互联网已经全面进入开放、平等、去中心化为特点的Web2.0时代,网络信息资源的海量增长使互联网信息重复与信息过载的问题日趋严重。因此,如何将半结构化、离散分布的互联网信息动态关联并聚合起来,有效提供服务并促进知识共享,成为当前国内外学者主要研究方向。 本文在研究文本聚类分析的基础上,借助中文分词、文本去重等技术,结合传统搜索引擎技术及RSS信息聚合技术,提出一种自动精炼Web信息、聚合语义相似信息的信息处理方法,以便根据潜在语义将相同或相似的Web信息自动聚合,及时发现新主题,追踪已有主题的演化趋势。本文主要研究内容包括: 1、针对传统信息聚合技术缺乏对信息本身处理的问题,本文提出web信息自动聚合系统设计方案,根据功能不同将系统分为信息获取、信息预处理、按语义聚合三部分,并对每一部分的处理过程进行详细分析与设计。2、研究分析现有网页正文抽取技术,提出一种基于标点分布和标签相似度的多正文网页抽取技术,利用网络上爬取的网页进行实验,实现证明该方法能有效的将网页中的主要信息分正文抽取。3、深入研究文本主题模型,特别是能根据文本潜在语义信息对文本进行聚类的LDA主题模型;针对Web信息多样化、主题多变的特点对LDA进行一定改进,使只能处理离线的、无时间信息的LDA模型应用于在线的Web信息聚合系统中;实验分析表明,该算法可以根据潜在语义将所涉主题相关的文档归类,同时可以根据不同时间的主题分布和主题热度对主题进行演化分析。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1;TP393.092

【参考文献】

中国期刊全文数据库 前5条

1 王伟军;孙晶;;Web2.0的研究与应用综述[J];情报科学;2007年12期

2 熊回香;陈姗;许颖颖;;基于Web 3.0的个性化信息聚合技术研究[J];情报理论与实践;2011年08期

3 邓胜利;;信息聚合服务的发展与演变研究[J];情报资料工作;2012年01期

4 黄春贤;毛明志;钟毅;;RSS技术及其发展探讨[J];计算机技术与发展;2007年05期

5 姜恩波;;基于信息聚合的服务与技术[J];现代图书情报技术;2007年04期



本文编号:1142660

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1142660.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9eaf7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com