中英文政策垂直搜索引擎研究与实现
【图文】:
于词共现的关键词提取算法改进原理介绍取是文本挖掘领域中的核心技术之一,然而在大多数关键政策文本关键词提取的算法。本文对比分析了两种普遍用,并结合政策文本自身具有的成文特征提出一种基于词共。经实验验证该方法在政策文本关键词提取方面比其他键词基本符合实际需求。方法得到的关键词有一定程度的偏差,很多高频词汇对文通过共现词找出一些低频却具有代表性的词汇。在使用加权系数 α 和 β 的取值至关重要,,但是目前一般的取值方针对性。本文通过大量观察政策文本成文规律得到两点特共现度计算公式中系数的值。一篇从待测样本集中随机抽取的政策文本的截图如下:
取并入库; URL 访问到内容页,抓取带标签的正文(PolicyBody)并将之入库正文抽取插件,从 PolicyBody 中抽取纯文本正文(PolicyText)并将网页相关信息(如:政策发布地区、政策类型等)并入库。表截图如下:
【学位授予单位】:河北经贸大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3
【参考文献】
相关期刊论文 前10条
1 时永宾;余青松;;基于共现词卡方值的关键词提取算法[J];计算机工程;2016年06期
2 罗燕;赵书良;李晓超;韩玉辉;丁亚飞;;基于词频统计的文本关键词提取方法[J];计算机应用;2016年03期
3 唐守忠;齐建东;;一种结合关键词与共现词对的向量空间模型[J];计算机工程与科学;2014年05期
4 王锦波;王莲芝;高万林;喻健;;一种改进的朴素贝叶斯关键词提取算法研究[J];计算机应用与软件;2014年02期
5 张建娥;;基于TFIDF和词语关联度的中文关键词提取方法[J];情报科学;2012年10期
6 牛永洁;张成;;多种字符串相似度算法的比较研究[J];计算机与数字工程;2012年03期
7 王立霞;淮晓永;;基于语义的中文文本关键词提取算法[J];计算机工程;2012年01期
8 刁兴春;谭明超;曹建军;;一种融合多种编辑距离的字符串相似度计算方法[J];计算机应用研究;2010年12期
9 蒋昌金;彭宏;陈建超;马千里;严桂夺;;基于组合词和同义词集的关键词提取算法[J];计算机应用研究;2010年08期
10 方俊;郭雷;王晓东;;基于语义的关键词提取算法[J];计算机科学;2008年06期
相关博士学位论文 前6条
1 刘宏哲;文本语义相似度计算方法研究[D];北京交通大学;2012年
2 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
3 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
4 常鹏;基于词共现的文本主题挖掘模型和算法研究[D];天津大学;2010年
5 郝秀兰;文本分类技术与应用研究[D];复旦大学;2008年
6 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
相关硕士学位论文 前10条
1 宏朴;基于Lucene的搜索引擎的研究与实现[D];大连理工大学;2016年
2 胡博;基于Lucene的垂直搜索引擎研究与实现[D];北京工业大学;2016年
3 李欣弘;基于关联规则和情感分析的图书推荐算法研究[D];吉林大学;2016年
4 张佳;基于Android平台的在线翻译软件设计与实现[D];河北科技大学;2016年
5 何荣杰;基于Lucene的全文搜索引擎的研究与实现[D];江苏科技大学;2016年
6 朱鹏;英文语料库垂直搜索引擎的研究与实现[D];北京邮电大学;2015年
7 王振风;基于Lucene的分布式全文检索技术的研究与应用[D];东华大学;2015年
8 李芸;基于爬虫和文本聚类分析的网络舆情分析系统设计与实现[D];电子科技大学;2014年
9 范蕾;基于Lucene的全文检索系统的设计与实现[D];厦门大学;2014年
10 袁明;基于隐性主题模型和新词发现的关键词抽取研究[D];北京邮电大学;2014年
本文编号:2603032
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2603032.html