基于统计的行业中文文本关键词提取方法
本文关键词:基于统计的行业中文文本关键词提取方法
【摘要】:本文针对垂直搜索引擎对中文文本关键词提取方法的需要,提出一种基于统计的行业中文文本关键词提取方法。该方法是将词语的位置信息、词跨度信息等指标融入到传统的基于统计特征的关键词提取方法之中,并采用一些方法对指标的权重进行校准,以达到垂直搜索引擎需要的提取的准确率和效率。实验表明,该方法能够有效提高对行业文本的关键词提取的准确率,具有良好的时间效率和稳定性。
【作者单位】: 中国矿业大学(北京);
【分类号】:TP391.1
【正文快照】: 【关键词】关键词提取;中文文本;垂直搜索引擎0引言随着计算机技术的发展,搜索引擎已经成为人们生活、工作中的重要工具。在人们享受搜索引擎带来的信息搜索便利的同时,其查询目标不准确、搜索深度不够等缺点也逐渐暴露出来。为了解决上述问题,2006年后逐渐兴起了一类专注于特
【参考文献】
中国期刊全文数据库 前2条
1 郑家恒,卢娇丽;关键词抽取方法的研究[J];计算机工程;2005年18期
2 王立霞;淮晓永;;基于语义的中文文本关键词提取算法[J];计算机工程;2012年01期
【共引文献】
中国期刊全文数据库 前10条
1 仲兆满;刘宗田;;基于两级概念格的信息抽取的研究[J];江西师范大学学报(自然科学版);2008年02期
2 谢红薇;王栋;;基于Web文本挖掘中的一种中文分词算法研究[J];电脑开发与应用;2007年07期
3 钟晓旭;;层次聚类方法在关键词提取上的研究应用[J];电脑知识与技术;2009年06期
4 陈森博;石振国;王春明;;基于本体论的Web知识检索及其应用研究[J];电脑知识与技术;2009年18期
5 吴聪聪;赵建立;;基于本体的主题爬虫的研究[J];电脑知识与技术;2011年03期
6 高学东;吴玲玉;;基于高维聚类技术的中文关键词提取算法[J];中国管理信息化;2011年09期
7 程涛;施水才;王霞;吕学强;;基于同义词词林的中文文本主题词提取[J];广西师范大学学报(自然科学版);2007年02期
8 尹倩;胡学钢;谢飞;吴信东;;基于密度聚类模式的中文新闻网页关键词提取[J];广西师范大学学报(自然科学版);2009年01期
9 罗灏;徐小良;吕跃华;;科技项目申请书关键词提取方法[J];电子科技;2013年07期
10 任莉莉;方元康;;基于词汇链与互信息的关键词抽取研究[J];池州学院学报;2013年06期
中国重要会议论文全文数据库 前1条
1 吴继媛;孙淳;侯敏;;面向传媒语言语料库的关键词自动抽取研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
2 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
3 高明霞;问答式OWL知识检索技术[D];北京工业大学;2008年
4 陈超;战争设计工程中群体专家智慧集成研究[D];国防科学技术大学;2007年
5 王菁华;文本中知识的获取[D];北京邮电大学;2008年
6 孙明;语义Web使用挖掘若干关键技术研究[D];电子科技大学;2009年
7 邱桃荣;面向本体学习的粒计算方法研究[D];北京交通大学;2009年
8 刘紫玉;多专业领域本体的构建及语义检索研究[D];北京交通大学;2010年
9 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
10 于娟;基于文本的领域本体学习方法及其应用研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 赵莲;大规模中英可比较语料库构建[D];大连理工大学;2010年
2 朱利君;基于茶学领域本体的智能检索研究[D];安徽农业大学;2010年
3 王有权;基于Web的智能答疑技术研究与实现[D];南京财经大学;2010年
4 吴倩倩;基于语义Web的智能问答系统的研究与实现[D];北京交通大学;2011年
5 李伟;搜索引擎核心词提取系统设计与实现[D];北京交通大学;2011年
6 刘冬雪;搜索引擎检索结果聚类系统的研究与实现[D];北京邮电大学;2011年
7 谢凤宏;基于复杂网络理论的文本聚类和关键词提取方法研究[D];辽宁师范大学;2011年
8 杜振兴;面向爆破行业的领域本体自动提取技术研究[D];华南理工大学;2011年
9 侯泽民;基于自组织映射的文本聚类研究[D];西南交通大学;2010年
10 刘婷;本体学习及其在语义检索中应用的研究[D];南昌大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 程涛;施水才;王霞;吕学强;;基于同义词词林的中文文本主题词提取[J];广西师范大学学报(自然科学版);2007年02期
2 马颖华,王永成,苏贵洋,张宇萌;一种基于字同现频率的汉语文本主题抽取方法[J];计算机研究与发展;2003年06期
3 郑家恒,卢娇丽;关键词抽取方法的研究[J];计算机工程;2005年18期
4 姜亚莉;关泽群;;用于Web文档聚类的基于相似度的软聚类算法[J];计算机工程;2006年02期
5 张虹;;基于自动文本分类的关键词抽取算法[J];计算机工程;2009年12期
6 张颖颖;谢强;丁秋林;;基于同义词链的中文关键词提取算法[J];计算机工程;2010年19期
7 李素建,王厚峰,俞士汶,辛乘胜;关键词自动标引的最大熵模型应用研究[J];计算机学报;2004年09期
8 程岚岚,何丕廉,孙越恒;基于朴素贝叶斯模型的中文关键词提取算法研究[J];计算机应用;2005年12期
9 索红光;刘玉树;曹淑英;;一种基于词汇链的关键词抽取方法[J];中文信息学报;2006年06期
10 何新贵,彭甫阳;中文文本的关键词自动抽取和模糊分类[J];中文信息学报;1999年01期
【相似文献】
中国期刊全文数据库 前10条
1 薛丽敏;李殿伟;肖斌;;中文文本情感倾向性五元模型研究[J];通信技术;2011年07期
2 游荣彦;中文文本简易压缩与即时加密研究[J];计算机工程与设计;1999年06期
3 刘来e,
本文编号:1304328
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1304328.html