文档共享网站的设计与实现

发布时间：2020-08-02 15:55

【摘要】：自本世纪以来,互联网已经成为了人们获取知识、信息的主要途径。个人、企业、国家机构,都在利用互联网、计算机软件系统等信息技术改变生活、改善生产活动。社会各行各业的信息化已成为不可阻挡的趋势。文档共享网站为网民们提供了在线查询浏览文档、上传分享文档的信息平台,这使得技术成果、应用文档、小说作品得文档内容都可以便捷得交流,方便了人们的生活,促进了文化的交流。国内的文档共享网站起源于2007年,经过十年的发展,目前已经有了数量庞大但服务质量参差不齐的文档共享网站。较大且专业的网站平台积累了大量的在线用户和海量文档、图书信息,而较小的网站的技术依然停留在提供在WEB2.0技术初期,提供的文档质量差、服务类别单一。本文围绕智能WEB理念,基于自然语言处理、信息检索、文本挖掘等理论技术,设计实现了一个小型文档共享网站,并且该网站易于运营、落地。而该文档共享网站可以对用户提供高质量的文档,使文档查找更为准确便捷、用户粘性更大。其中,网站运用文本分类、聚类技术使得网站的文本类别展示更为合理;运用多模式匹配技术过滤文档中色情、反动、暴力的内容以提高文档的整体质量;结合聚类和LDA语义主题提取技术,设计了基于主题内容的文档推荐系统,主动向用户推荐其感兴趣的文档;运用全文检索技术,设计了丰富的文档查询功能,使用户可以更准确、快捷的获取文档。最后,将各子系统综合起来,完成了文档共享网站的实现、部署。文本还对网站进行了测试,包括网页的展示、文档查询、文档推荐功能的使用测试。可见该网站对比原有小型文档共享网站所提供的服务质量有明显的提高,为其他小型网站的升级起到了示范作用。
【学位授予单位】：电子科技大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TP393.092
【图文】：

圆点,绿色,近邻算法,范围查询

图 2-1 K 临近示例图值为 3，则观察绿色圆点的最近的 3 个邻居是 2 个红计算各颜色形状的个数，判定绿色的这个待分类点K 取值为 5，则观察绿色圆点的左近的 5 个邻居是 2方形，计算各颜色形状的个数，判定绿色的这个待。要对某个实例判定类别时，可以依据统计学的理论它所在空间周围邻居的权重，而把它归为(或分配)到近邻算法的核心思想。询的基本方法，a)范围查询，即给定查询点和查询利查找所有与查询点距离在阈值之内的数据;b) K 近数 K，从数据模型中找到距离查询点最近的 K 个数是最近邻查询。示方法,K 近邻模型的特征空间一般是 N 维向量空间

ER图,实体关系,ER图

图 3-7 实体关系 ER 图3.10 本章小结本章主要介绍了系统的主要模块，首先从系统概要设计，并阐述了其特点，然后是 LDA 模型，这是一种成熟的概率生成模型，之后是文档共享网站最为重要的一部分文档推荐系统，最后是多模型匹配，这些模块我分别从主要方案思路，算法步骤，系统性能分析三个方面对上述的算法构建做了详细的描述，并对其中的一些进行了举例说明。

文件名,预览,文档类型,文档

第五章文档共享网站的测试文档预览的功能测试包括多种文档类型的预览测试、预览展示的相应速度测。经测试，网站可以预览文档类型包括微软 office、金山 WPS、PDF 文档的预，并且保留源文档的展示方式，而文件预览的相应时间在 1s 钟以内。如图 5-1 为文件名查询结果展示页。

【参考文献】