文本特征和复合统计量的领域术语抽取方法
[Abstract]:The extraction of terms in Chinese domain is an important part of text knowledge mining. The traditional Chinese domain term extraction method is mainly manual, obviously this method is time-consuming and laborious. At present, the automatic extraction methods of Chinese terminology are mainly based on dictionaries, rules and statistics. However, due to the complexity of Chinese natural language, these automatic extraction methods have some limitations, such as slow updating of user dictionaries and rules in specific fields, insufficient consideration of text features, etc. As a result, the effect of extraction is not good. In order to solve this problem, this paper proposes a method of extracting terms in Chinese domain based on text features and compound statistics. After coarse-grained selection of the words in Chinese documents, the method synthetically considers the part of speech and length of candidate terms. Based on the text features such as boundary words, information entropy and TFIDF statistics are constructed, the synthetic weights are calculated, and the candidate terms whose weights are greater than the threshold are extracted as the final domain terms. The experimental results show that the proposed method has good accuracy, recall and F value under the test data.
【作者单位】: 西北工业大学计算机学院;
【基金】:陕西省自然科学基金(2015JM6290)资助
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 张文静;梁颖红;;术语抽取技术研究[J];信息技术;2008年03期
2 程斌;张水茂;;基于统计与规则的术语抽取[J];科技广场;2009年09期
3 杜波,田怀凤,王立,陆汝占;基于多策略的专业领域术语抽取器的设计[J];计算机工程;2005年14期
4 胡文敏;何婷婷;张勇;;基于卡方检验的汉语术语抽取[J];计算机应用;2007年12期
5 周浪;冯冲;黄河燕;;一种面向术语抽取的短语过滤技术[J];计算机工程与应用;2009年19期
6 康小丽;章成志;王惠临;;基于可比语料库的双语术语抽取研究述评[J];现代图书情报技术;2009年10期
7 许德山;张智雄;王峰;邢美凤;;上下文分析与统计特征相结合的英文术语抽取研究[J];现代图书情报技术;2010年12期
8 刘里;刘小明;;基于分隔符和上下文术语的领域现象术语抽取[J];华南理工大学学报(自然科学版);2011年07期
9 唐涛;周俏丽;张桂平;;统计与规则相结合的术语抽取[J];沈阳航空航天大学学报;2011年05期
10 钟玉峰;;基于平行语料库的文献术语抽取研究[J];黑龙江工程学院学报(自然科学版);2011年04期
相关会议论文 前2条
1 章成志;王惠临;;基于专业领域平行语料的双语核心术语抽取研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 宁海燕;刘秉权;张德园;刘远超;王晓龙;;基于统计的中文领域术语自动抽取方法的比较研究[A];第五届全国信息检索学术会议论文集[C];2009年
相关博士学位论文 前2条
1 周浪;中文术语抽取若干问题研究[D];南京理工大学;2010年
2 肖奕;地质数据信息服务参考模型及关键技术研究[D];中国地质大学(北京);2013年
相关硕士学位论文 前9条
1 何福江;基于平行语料库的双语术语抽取[D];北京理工大学;2015年
2 李丹;特定领域中文术语抽取[D];大连理工大学;2011年
3 田俊玮;军事领域中文术语抽取的研究[D];大连理工大学;2013年
4 赵欣;基于最大熵的中文术语抽取系统的设计与实现[D];西安电子科技大学;2012年
5 段国成;基于CCD的术语抽取研究[D];郑州大学;2007年
6 唐涛;面向特定领域的中文分词技术的研究[D];沈阳航空航天大学;2012年
7 谭龙;领域文本术语抽取与语义概念图构建模型研究[D];华东交通大学;2014年
8 姚贤明;领域概念自动抽取研究[D];昆明理工大学;2010年
9 刘飒;专业领域可比语料的构建与评价研究[D];南京理工大学;2012年
,本文编号:2418961
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2418961.html