当前位置:主页 > 科技论文 > 搜索引擎论文 >

中英文政策垂直搜索引擎研究与实现

发布时间:2020-03-27 13:38
【摘要】:随着人类社会迈入信息时代,网络已经渗透到大众生活的方方面面,在人们生活中发挥着越来越重要的作用。然而,要在数据量急剧增长的网络上获取自己所需要的精确信息,却变得愈加困难。面对规模庞大而又飞速增长的网络空间,人工浏览显然已无法满足人们对信息和知识的渴求,搜索引擎便成为人们从网络获取有用数据的重要途径,在人们日常生活和工作中发挥着越来越重要的作用。垂直搜索引擎即是针对某一特定行业领域的专业搜索工具,可向用户提供准确、及时、完整的行业领域信息。通过与外省政策对比研究,定位我省科技创新活动中存在的问题,挖掘并筛选出我省科技创新政策需求信息,即筛选出“人有我无”的政策法规或者同质政策的不同内容,为我省科技创新政策法规制定过程中的问题界定和方案设计择优环节提供借鉴参考。本文基于已开发完成的政策信息垂直搜索引擎,继而新增了“人有我无”搜索、政策舆情搜索、英文政策检索三大功能模块。本文首先介绍了实现中英文搜索引擎的理论基础和主要技术,然后介绍在“人有我无”搜索模块中两个文本分类的相关算法的应用和改进。改进的两个算法分别是:1)基于词共现的政策文本关键词抽取算法:本文结合政策文本成文规律对基于词共现关键词抽取算法中计算共现词关键度的两个重要系数α、β进行了动态计算的调整,使关键词的抽取更加符合文章大意,降低了在政策文本关键词抽取中漏取低频的关键词概率;2)在文本分类算法研究中改进了基于特征词加权的计算关键词相似度阈值的方法:本文结合政策文本特征词的权值分布规律对相似度阈值进行动态计算,使文本分类中特政词的相似度更加符合实际情况。对改进后算法与传统算法进行了比较实验,实验结果表明改进后的算法性能优于传统算法。最后介绍系统的整体设计和各个模块的设计与实现,并对所有模块进行了功能测试测试结果显示各模块功能实现良好,能都达到使用要求。
【图文】:

政策,文本,共现,关键词提取


于词共现的关键词提取算法改进原理介绍取是文本挖掘领域中的核心技术之一,然而在大多数关键政策文本关键词提取的算法。本文对比分析了两种普遍用,并结合政策文本自身具有的成文特征提出一种基于词共。经实验验证该方法在政策文本关键词提取方面比其他键词基本符合实际需求。方法得到的关键词有一定程度的偏差,很多高频词汇对文通过共现词找出一些低频却具有代表性的词汇。在使用加权系数 α 和 β 的取值至关重要,,但是目前一般的取值方针对性。本文通过大量观察政策文本成文规律得到两点特共现度计算公式中系数的值。一篇从待测样本集中随机抽取的政策文本的截图如下:

网页,正文,带标签,插件


取并入库; URL 访问到内容页,抓取带标签的正文(PolicyBody)并将之入库正文抽取插件,从 PolicyBody 中抽取纯文本正文(PolicyText)并将网页相关信息(如:政策发布地区、政策类型等)并入库。表截图如下:
【学位授予单位】:河北经贸大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3

【参考文献】

相关期刊论文 前10条

1 时永宾;余青松;;基于共现词卡方值的关键词提取算法[J];计算机工程;2016年06期

2 罗燕;赵书良;李晓超;韩玉辉;丁亚飞;;基于词频统计的文本关键词提取方法[J];计算机应用;2016年03期

3 唐守忠;齐建东;;一种结合关键词与共现词对的向量空间模型[J];计算机工程与科学;2014年05期

4 王锦波;王莲芝;高万林;喻健;;一种改进的朴素贝叶斯关键词提取算法研究[J];计算机应用与软件;2014年02期

5 张建娥;;基于TFIDF和词语关联度的中文关键词提取方法[J];情报科学;2012年10期

6 牛永洁;张成;;多种字符串相似度算法的比较研究[J];计算机与数字工程;2012年03期

7 王立霞;淮晓永;;基于语义的中文文本关键词提取算法[J];计算机工程;2012年01期

8 刁兴春;谭明超;曹建军;;一种融合多种编辑距离的字符串相似度计算方法[J];计算机应用研究;2010年12期

9 蒋昌金;彭宏;陈建超;马千里;严桂夺;;基于组合词和同义词集的关键词提取算法[J];计算机应用研究;2010年08期

10 方俊;郭雷;王晓东;;基于语义的关键词提取算法[J];计算机科学;2008年06期

相关博士学位论文 前6条

1 刘宏哲;文本语义相似度计算方法研究[D];北京交通大学;2012年

2 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年

3 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年

4 常鹏;基于词共现的文本主题挖掘模型和算法研究[D];天津大学;2010年

5 郝秀兰;文本分类技术与应用研究[D];复旦大学;2008年

6 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年

相关硕士学位论文 前10条

1 宏朴;基于Lucene的搜索引擎的研究与实现[D];大连理工大学;2016年

2 胡博;基于Lucene的垂直搜索引擎研究与实现[D];北京工业大学;2016年

3 李欣弘;基于关联规则和情感分析的图书推荐算法研究[D];吉林大学;2016年

4 张佳;基于Android平台的在线翻译软件设计与实现[D];河北科技大学;2016年

5 何荣杰;基于Lucene的全文搜索引擎的研究与实现[D];江苏科技大学;2016年

6 朱鹏;英文语料库垂直搜索引擎的研究与实现[D];北京邮电大学;2015年

7 王振风;基于Lucene的分布式全文检索技术的研究与应用[D];东华大学;2015年

8 李芸;基于爬虫和文本聚类分析的网络舆情分析系统设计与实现[D];电子科技大学;2014年

9 范蕾;基于Lucene的全文检索系统的设计与实现[D];厦门大学;2014年

10 袁明;基于隐性主题模型和新词发现的关键词抽取研究[D];北京邮电大学;2014年



本文编号:2603032

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2603032.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c0081***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com