基于术语长度和语法特征的统计领域术语抽取
本文选题:自然语言处理 切入点:术语抽取 出处:《哈尔滨工程大学学报》2017年09期 论文类型:期刊论文
【摘要】:针对领域术语抽取中含字长度较大的术语被错误切分的问题,本文提出一种基于术语长度和语法特征的统计领域术语抽取方法。本方法在利用机器学习抽取候选术语时,加入基于术语长度和语法特征的约束规则;在使用统计方法确定候选术语的领域性时,充分考虑词长比这一概念的重要性,将其作为判断术语领域性的重要权值。实验表明,提出的方法能够正确抽取含字长度较大的领域术语,抽取结果的准确率和召回率相比以往的方法有所提高。
[Abstract]:In this paper, a statistical domain term extraction method based on term length and grammatical features is proposed to solve the problem of incorrect segmentation of large word length terms in domain term extraction, in which candidate terms are extracted by machine learning. A constraint rule based on term length and grammatical features is added. The importance of the concept of word length ratio is taken into account in determining the domain of candidate terms by using statistical methods. The proposed method can correctly extract the domain terms with large word length, and the accuracy and recall rate of the extraction results are improved compared with the previous methods.
【作者单位】: 天津理工大学计算机视觉与系统省部共建教育部重点实验室;天津理工大学天津市智能计算及软件新技术重点实验室;
【基金】:国家自然科学基金项目(71501141,61301140) 天津市科技特派员项目(15JCTPJC63800)
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 张文静;梁颖红;;术语抽取技术研究[J];信息技术;2008年03期
2 程斌;张水茂;;基于统计与规则的术语抽取[J];科技广场;2009年09期
3 杜波,田怀凤,王立,陆汝占;基于多策略的专业领域术语抽取器的设计[J];计算机工程;2005年14期
4 胡文敏;何婷婷;张勇;;基于卡方检验的汉语术语抽取[J];计算机应用;2007年12期
5 周浪;冯冲;黄河燕;;一种面向术语抽取的短语过滤技术[J];计算机工程与应用;2009年19期
6 康小丽;章成志;王惠临;;基于可比语料库的双语术语抽取研究述评[J];现代图书情报技术;2009年10期
7 许德山;张智雄;王峰;邢美凤;;上下文分析与统计特征相结合的英文术语抽取研究[J];现代图书情报技术;2010年12期
8 刘里;刘小明;;基于分隔符和上下文术语的领域现象术语抽取[J];华南理工大学学报(自然科学版);2011年07期
9 唐涛;周俏丽;张桂平;;统计与规则相结合的术语抽取[J];沈阳航空航天大学学报;2011年05期
10 钟玉峰;;基于平行语料库的文献术语抽取研究[J];黑龙江工程学院学报(自然科学版);2011年04期
相关会议论文 前2条
1 章成志;王惠临;;基于专业领域平行语料的双语核心术语抽取研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 宁海燕;刘秉权;张德园;刘远超;王晓龙;;基于统计的中文领域术语自动抽取方法的比较研究[A];第五届全国信息检索学术会议论文集[C];2009年
相关博士学位论文 前2条
1 周浪;中文术语抽取若干问题研究[D];南京理工大学;2010年
2 肖奕;地质数据信息服务参考模型及关键技术研究[D];中国地质大学(北京);2013年
相关硕士学位论文 前9条
1 何福江;基于平行语料库的双语术语抽取[D];北京理工大学;2015年
2 李丹;特定领域中文术语抽取[D];大连理工大学;2011年
3 田俊玮;军事领域中文术语抽取的研究[D];大连理工大学;2013年
4 赵欣;基于最大熵的中文术语抽取系统的设计与实现[D];西安电子科技大学;2012年
5 段国成;基于CCD的术语抽取研究[D];郑州大学;2007年
6 唐涛;面向特定领域的中文分词技术的研究[D];沈阳航空航天大学;2012年
7 谭龙;领域文本术语抽取与语义概念图构建模型研究[D];华东交通大学;2014年
8 姚贤明;领域概念自动抽取研究[D];昆明理工大学;2010年
9 刘飒;专业领域可比语料的构建与评价研究[D];南京理工大学;2012年
,本文编号:1618029
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1618029.html