学术论文大纲中关键术语抽取方法研究
本文关键词:学术论文大纲中关键术语抽取方法研究 出处:《现代图书情报技术》2014年03期 论文类型:期刊论文
更多相关文章: 候选术语识别 候选术语选择 句法依存关系 层级特征
【摘要】:【目的】针对学术论文大纲内容精炼、层次性的特点,研究从中抽取重要且具有实质意义术语的方法。【方法】结合语言学规则和术语词典从大纲各级标题中识别出候选术语集,然后根据术语间的句法依存关系计算tf-idf,并利用大纲结构量化术语层级特征,最后结合tf-idf与层级特征对候选术语进行排名,选择出关键术语。【结果】实验证明,该方法的候选术语识别F值达到89.57%,术语选择F值达到36.89%。【局限】采用的术语抽取规则不完备,且tf-idf计算过程中的权值设置仅使用经验值,导致未能达到最优效果。【结论】该方法能有效抽取大纲中的关键术语,适用于层级结构中的关键术语抽取。
[Abstract]:[objective] to aim at the characteristics of refinement and hierarchy of the outline of academic papers. This paper studies the methods of extracting important and meaningful terms from them. [methods] combining linguistic rules and terminology dictionaries, candidate terminology sets are identified from syllabus titles at all levels. Then tf-idf is calculated according to the syntactic dependency between terms, and the hierarchical features of the terms are quantified by the outline structure. Finally, the candidate terms are ranked with tf-idf and hierarchical features. [results] experiments show that the candidate term recognition F value of this method is 89.57, and the term selection F value is 36.89. The term extraction rules used in this method are not complete. In the process of tf-idf calculation, only the empirical value is used, which leads to the failure to achieve the optimal results. [conclusion] this method can extract the key terms in the outline effectively. It is suitable for the extraction of key terms in hierarchy.
【作者单位】: 中国科学院国家科学图书馆;中国科学院大学;
【基金】:国家科技支撑计划子课题“基于文献知识网络的领域学术关系研究与示范”(项目编号:2011BAH10B06-04)的研究成果之一
【分类号】:TP391.1
【正文快照】: 1引言关键术语(Keyphrase)是指反映文章主旨的词或短语,常在自动文摘、信息检索、文档聚类和自动问答等自然语言处理系统中表示文档[1-3]。关键术语抽取(Keyphrase Extraction)是从大量的文本中识别关键术语的过程,抽取结果对自然语言处理应用有重要影响。传统的抽取方法主要
【参考文献】
相关期刊论文 前3条
1 计然;;计算机领域术语的自动获取和层次构建[J];硅谷;2011年20期
2 刘里;刘小明;;基于分隔符和上下文术语的领域现象术语抽取[J];华南理工大学学报(自然科学版);2011年07期
3 祝清松;冷伏海;;自动术语识别存在的问题及发展趋势综述[J];图书情报工作;2012年18期
【共引文献】
相关期刊论文 前8条
1 杜丽萍;李晓戈;周元哲;邵春昌;;互信息改进方法在术语抽取中的应用[J];计算机应用;2015年04期
2 孟洪宇;谢晴宇;常虹;孟庆刚;;基于条件随机场的《伤寒论》中医术语自动识别[J];北京中医药大学学报;2015年09期
3 祝清松;冷伏海;;自动术语识别存在的问题及发展趋势综述[J];图书情报工作;2012年18期
4 徐川;施水才;房祥;吕学强;;中文专利文献术语抽取[J];计算机工程与设计;2013年06期
5 颜端武;李兰彬;曲美娟;;基于N-gram复合分词的领域概念自动获取方法研究[J];情报理论与实践;2014年02期
6 丁玉飞;王曰芬;刘卫江;;面向半结构化文本的知识抽取研究[J];情报理论与实践;2015年03期
7 熊李艳;谭龙;钟茂生;;基于有效词频的改进C-value自动术语抽取方法[J];现代图书情报技术;2013年09期
8 余恒;崔辰州;张晖;;天文学英语新词自动提取系统[J];天文研究与技术;2015年03期
相关博士学位论文 前1条
1 肖奕;地质数据信息服务参考模型及关键技术研究[D];中国地质大学(北京);2013年
相关硕士学位论文 前5条
1 徐会芳;可比语料中双语多词术语互译对抽取方法研究[D];大连理工大学;2013年
2 黎蛰螯;飞机数字化装配过程数据管理及误差数据统计分析[D];浙江大学;2013年
3 孟洪宇;基于条件随机场的《伤寒论》中医术语自动识别研究[D];北京中医药大学;2014年
4 谭龙;领域文本术语抽取与语义概念图构建模型研究[D];华东交通大学;2014年
5 程佳玲;英语专业大学生抄袭意识及态度调查研究[D];江西师范大学;2014年
【二级参考文献】
相关期刊论文 前10条
1 傅继彬;樊孝忠;毛金涛;余正涛;;基于语言特性的中文领域术语抽取算法[J];北京理工大学学报;2010年03期
2 陈年;兰竞;;基于层次式计算体系的实时智能系统及其应用[J];福建电脑;2009年04期
3 董秀芳;动词性并列式复合词的历时发展特点与词化程度的等级[J];河北师范大学学报(哲学社会科学版);2000年01期
4 刘里;刘小明;;基于分隔符和上下文术语的领域现象术语抽取[J];华南理工大学学报(自然科学版);2011年07期
5 荀恩东;李晟;;采用术语定义模式和多特征的新术语及定义识别方法[J];计算机研究与发展;2009年01期
6 周浪;张亮;冯冲;黄河燕;;基于词频分布变化统计的术语抽取方法[J];计算机科学;2009年05期
7 孙振平;贺汉根;;基于层次式的实时智能计算体系结构研究[J];计算机工程与科学;2006年04期
8 李勇;;基于聚类方法对特定领域术语的自动筛选[J];计算机工程与科学;2008年02期
9 马春华;朱颢东;钟勇;;结合新型文档频和二进制可辨矩阵的特征选择[J];计算机应用;2009年08期
10 李彬,刘挺,秦兵,李生;基于语义依存的汉语句子相似度计算[J];计算机应用研究;2003年12期
相关会议论文 前1条
1 王海雄;郭剑毅;余正涛;毛存礼;张朝胜;雷春雅;;基于CRFs的中文领域术语自动抽取研究[A];第六届全国信息检索学术会议论文集[C];2010年
相关硕士学位论文 前2条
1 刘成帅;中文领域术语自动获取方法的研究[D];南京邮电大学;2011年
2 谢芳;特定领域术语的自动获取[D];华中师范大学;2006年
【相似文献】
相关期刊论文 前10条
1 程斌;张水茂;;基于统计与规则的术语抽取[J];科技广场;2009年09期
2 杜波,田怀凤,王立,陆汝占;基于多策略的专业领域术语抽取器的设计[J];计算机工程;2005年14期
3 胡文敏;何婷婷;张勇;;基于卡方检验的汉语术语抽取[J];计算机应用;2007年12期
4 周浪;冯冲;黄河燕;;一种面向术语抽取的短语过滤技术[J];计算机工程与应用;2009年19期
5 康小丽;章成志;王惠临;;基于可比语料库的双语术语抽取研究述评[J];现代图书情报技术;2009年10期
6 许德山;张智雄;王峰;邢美凤;;上下文分析与统计特征相结合的英文术语抽取研究[J];现代图书情报技术;2010年12期
7 刘里;刘小明;;基于分隔符和上下文术语的领域现象术语抽取[J];华南理工大学学报(自然科学版);2011年07期
8 唐涛;周俏丽;张桂平;;统计与规则相结合的术语抽取[J];沈阳航空航天大学学报;2011年05期
9 钟玉峰;;基于平行语料库的文献术语抽取研究[J];黑龙江工程学院学报(自然科学版);2011年04期
10 汤青;吕学强;李卓;施水才;;领域本体术语抽取研究[J];现代图书情报技术;2014年01期
相关会议论文 前2条
1 章成志;王惠临;;基于专业领域平行语料的双语核心术语抽取研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 宁海燕;刘秉权;张德园;刘远超;王晓龙;;基于统计的中文领域术语自动抽取方法的比较研究[A];第五届全国信息检索学术会议论文集[C];2009年
相关博士学位论文 前2条
1 周浪;中文术语抽取若干问题研究[D];南京理工大学;2010年
2 肖奕;地质数据信息服务参考模型及关键技术研究[D];中国地质大学(北京);2013年
相关硕士学位论文 前9条
1 李丹;特定领域中文术语抽取[D];大连理工大学;2011年
2 田俊玮;军事领域中文术语抽取的研究[D];大连理工大学;2013年
3 赵欣;基于最大熵的中文术语抽取系统的设计与实现[D];西安电子科技大学;2012年
4 段国成;基于CCD的术语抽取研究[D];郑州大学;2007年
5 唐涛;面向特定领域的中文分词技术的研究[D];沈阳航空航天大学;2012年
6 谭龙;领域文本术语抽取与语义概念图构建模型研究[D];华东交通大学;2014年
7 史东娜;基于半监督学习的特定领域术语抽取算法的研究[D];北京邮电大学;2009年
8 姚贤明;领域概念自动抽取研究[D];昆明理工大学;2010年
9 刘飒;专业领域可比语料的构建与评价研究[D];南京理工大学;2012年
,本文编号:1436520
本文链接:https://www.wllwen.com/wenshubaike/lwzy/1436520.html