当前位置:主页 > 文艺论文 > 广告艺术论文 >

基于正文提取的信息分享和交流系统的设计与实现

发布时间:2017-09-04 00:19

  本文关键词:基于正文提取的信息分享和交流系统的设计与实现


  更多相关文章: 正文提取算法 信息分享和交流 信息过载


【摘要】:企业员工需要经常性在网络上查询与公司业务以及解决方案相关的信息,然而随着互联网信息的发展,网络信息量迅速增大,如何简洁有效的进行信息分享和交流成为企业内部比较重要的问题。当前使用的信息分享和交流系统主要是基于网页链接的分享,虽然能够实现基本功能,但在实际的应用中却有以下问题:一方面网页过多广告和无用信息会影响阅读效率和积极性,另一方面网页信息过载会影响信息检索的效率和正确率。本文针对上述问题,设计并实现了一个公司内部基于正文提取的信息分享和交流系统NISCS (Neverout Imformation Sharing and Communication System)。该系统以正文提取为基础,以网页正文内容为信息资源,提供相应的信息分享和交流管理的功能。本文主要的工作如下:(1)对信息分享和交流系统以及正文提取算法进行了相关研究。(2)描述了系统相关的技术背景,包括正文提取技术、协同过滤算法及相关开发技术。(3)针对NISCS系统进行需求分析,介绍了NISCS系统的整体设计架构以及各个功能模块的设计方案以及数据库的设计。(4)详细描述了NISCS系统的具体实现,特别对正文提取模块进行描述。NISCS系统利用设计正文提取算法实现了网页正文信息的提取,利用SSH框架实现信息分享和交流方面的功能。目前该系统已经完成,处于试用阶段。
【关键词】:正文提取算法 信息分享和交流 信息过载
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要5-6
  • Abstract6-11
  • 第一章 引言11-16
  • 1.1 项目背景11-12
  • 1.2 信息分享和交流系统的研究现状12-13
  • 1.3 目前存在的问题以及本文主要研究的工作13-14
  • 1.4 本文的组织结构14-16
  • 第二章 技术综述16-23
  • 2.1 正文提取相关技术16-18
  • 2.1.1 HtmlUnit16-17
  • 2.1.2 Dom树介绍17
  • 2.1.3 页面正文提取技术17-18
  • 2.2 协同过滤算法18-20
  • 2.2.1 基于用户的协同过滤算法19
  • 2.2.2 基于项目的协同过滤算法19-20
  • 2.3 系统开发相关技术20-22
  • 2.3.1 Struts框架20-21
  • 2.3.2 Spring21
  • 2.3.3 Apache Mahout21-22
  • 2.4 本章小结22-23
  • 第三章 NISCS系统的分析与设计23-45
  • 3.1 系统需求分析23-29
  • 3.1.1 功能性需求23-29
  • 3.1.2 算法需求29
  • 3.2 系统概要设计29-31
  • 3.3 系统数据库设计31-34
  • 3.3.1 用户管理数据库实现32
  • 3.3.2 文信息管理数据库实现32-34
  • 3.3.3 问答管理数据库实现34
  • 3.4 页面爬取模块详细设计34-37
  • 3.5 正文内容提取模块详细设计37-40
  • 3.6 系统服务管理模块详细设计40-43
  • 3.6.1 文信息管理子模块设计42-43
  • 3.6.2 用户管理子模块设计43
  • 3.6.3 问答管理子模块设计43
  • 3.7 本章小结43-45
  • 第四章 NISCS系统的实现45-69
  • 4.1 页面爬取模块实现45-50
  • 4.2 正文内容提取模块实现50-58
  • 4.2.1 基于特征文本密度的自动提取实现50-57
  • 4.2.2 基于浏览器插件的手动提取实现57-58
  • 4.3 系统服务管理模块实现58-68
  • 4.3.1 用户管理59-60
  • 4.3.2 问答管理60-61
  • 4.3.3 正文信息管理61-68
  • 4.4 本章小结68-69
  • 第五章 总结与展望69-71
  • 5.1 总结69
  • 5.2 进一步工作展望69-71
  • 参考文献71-73
  • 致谢73-75

【参考文献】

中国期刊全文数据库 前9条

1 杨柳青;李晓东;耿光刚;;基于布局相似性的网页正文内容提取研究[J];计算机应用研究;2015年09期

2 王燕娇;;大学生社交网站用户信息分享行为调查研究——以人人网为例[J];高校图书情报论坛;2014年03期

3 陈永江;仲兆满;陈宗华;;HTMLUNIT在网络信息采集系统中的应用[J];淮海工学院学报(自然科学版);2013年04期

4 姜仲;娄钧;;基于云计算的知识分享系统的设计[J];电脑知识与技术;2012年11期

5 陈钊;张冬梅;;Web信息抽取技术综述[J];计算机应用研究;2010年12期

6 张俊英;胡侠;卜佳俊;;网页文本信息自动提取技术综述[J];计算机应用研究;2009年08期

7 马宏伟;张光卫;李鹏;;协同过滤推荐算法综述[J];小型微型计算机系统;2009年07期

8 哈清;;信息资源共享的现状和展望[J];科技情报开发与经济;2007年12期

9 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期

中国重要会议论文全文数据库 前1条

1 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年

中国硕士学位论文全文数据库 前4条

1 常江;基于Apache Mahout的推荐算法的研究与实现[D];电子科技大学;2013年

2 曹晓菲;人人网信息分享行为研究[D];河北大学;2013年

3 莫卓颖;基于语义DOM的WEB信息抽取[D];广西师范大学;2012年

4 胡金栋;网页正文提取及去重技术研究[D];浙江大学;2011年



本文编号:788223

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/788223.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户06e79***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com