当前位置:主页 > 科技论文 > 软件论文 >

基于NLP和爬虫的在线文章阅读系统设计与实现

发布时间:2025-02-15 10:58
  随着互联网的发展,越来越多的人们选择通过网络来获取信息,这使得很多文章以网页文本的形式展现在互联网中。不可避免地,很多重复的文本信息也出现在了互联网上,重复的文本导致人们的阅读体验下降,也导致了互联网上存储空间的冗余。本文通过对自然语言处理的研究,提出了一种多特征融合的文本相似度算法。通过该算法,可以快速对库里的文章进行筛选,将高度相似的文章标记,降低用户多次浏览到相同内容的文章的可能。本文还开发了一套在线文章阅读系统,应用了这种文本相似度算法。系统基于浏览器/服务器模型,后台基于Java语言,使用了比较流行的SSM框架,开发环境是Eclipse。前台基于Html+Vue.js框架,开发环境是Node.js+Microsoft Visual Studio Code。该系统能够实现阅读文章,用户登录,用户注册,阅读历史,信息更改的需求。

【文章页数】:72 页

【学位级别】:硕士

【部分图文】:

图2.3?JNA使用步骤图??大部分情况下,本地库都已经存在,即系统己经提供了相应的dll/so文件,??不需要开发人员额外的代码,只需要直接调用

图2.3?JNA使用步骤图??大部分情况下,本地库都已经存在,即系统己经提供了相应的dll/so文件,??不需要开发人员额外的代码,只需要直接调用

?第2章相关技术???(?刑台)??、态链接土一^??a?编写项目需要的功??能,导出为DLL文件??I??w??将DLL文件放在Java项目中??u??在Java项目中创建接口类,使用??JNA提供的Native方法加载DLL文件??1??在接口类中声明??要使用的方法??c结....


图3.2转换图??

图3.2转换图??

?第3章多特征融合的文本相似度算法???独热表示向量?_?变换矩阵U1?预测结果???1?变换矩阵V?分布式表不向量????? ̄ ̄:——tr ̄1? ̄^预??^?^?——??——?测????—??g??程??V?V?V?V7?V7??输入层一层权重隐藏层二层权重输出层??图3.2转....


图4.5网站结构图??I首页??首页同时也作为门户站点,是前端系统的起始页

图4.5网站结构图??I首页??首页同时也作为门户站点,是前端系统的起始页

?第4章系统设计????(5^5?巨??注册表单???—djE)?巨??登录表单???(用户4息页)?^1??^?用户信息表单???(阅读历史页)???f文章情觅—?关联文章列表?? ̄ ̄i!"""""??????C文章^索页)?1—^??检索表单??图4.5网站结构图??I首页?....


图5.1?SenSim参数实验结果分析图??

图5.1?SenSim参数实验结果分析图??

?第5章系统实现及实验结果???500000?433190?0.96??450000?426921??I,〇,955??■??■■??〇.945??H?0.94??0.935??j?-??_L??一组?二组三结圈组?五组六组七组??耗B寸(ms)?_?—?_召回率??图5.1?S....



本文编号:4034201

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/4034201.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户36f6c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com