当前位置:主页 > 科技论文 > 软件论文 >

基于混合余弦相似度的中文文本层次关系挖掘

发布时间:2018-09-08 13:14
【摘要】:层次关系是中文文本概念间存在的最为重要的关系之一。对层次关系的正确判定是进行领域本体自动构建、文本数据挖掘等信息处理的基础研究内容。先将概念间可能存在的候选层次关系罗列出来,构建词性序列语义余弦相似度和关系词语余弦相似度混合的核函数分类器,将概念间层次关系的挖掘问题转换为分类问题;再通过对文本数据进行模板标注来训练分类器;最后输入预处理后的中文文本,使用核函数分类器对候选层次关系进行判定。以空军武器装备领域的中文文本为测试数据,通过实验表明,该方法简单可靠,具有较好的正确率和召回率。
[Abstract]:Hierarchical relationship is one of the most important relationships between concepts of Chinese text. The correct judgment of hierarchical relationship is the basic research content of domain ontology automatic construction, text data mining and other information processing. Firstly, the candidate hierarchical relationships among concepts are listed out, and a kernel function classifier is constructed, which combines the semantic cosine similarity of part of speech sequence and the cosine similarity of relational words, and the mining problem of hierarchical relations between concepts is transformed into a classification problem. Then the classifier is trained by template annotation of text data. Finally, the pre-processed Chinese text is input and the candidate hierarchical relationship is judged by kernel function classifier. Taking the Chinese text in the field of air force weapon equipment as the test data, the experimental results show that the method is simple and reliable, and has good accuracy and recall rate.
【作者单位】: 西北工业大学计算机学院;
【基金】:国家部委基金智能信息处理支撑技术项目(513150703) 陕西省自然科学基金资助项目(2015JM6290)
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 兰杰;在西文状态下阅读中文文本文件[J];电脑知识;1997年02期

2 骆卫华,罗振声,宫小瑾;中文文本自动校对技术的研究[J];计算机研究与发展;2004年01期

3 顾益军,樊孝忠,于江德,李良富;受限领域中文文本主题标引系统研究[J];计算机应用;2004年01期

4 李长荣,阚戈;中文文本2-分类模型在上证指数趋势分析中的应用研究[J];齐齐哈尔大学学报;2005年02期

5 许细清;林世平;;面向中文文本的观点检索技术研究[J];福州大学学报(自然科学版);2010年05期

6 薛丽敏;李殿伟;肖斌;;中文文本情感倾向性五元模型研究[J];通信技术;2011年07期

7 刘开瑛,薛翠芳,郑家恒,周晓强;中文文本中抽取特征信息的区域与技术[J];中文信息学报;1998年02期

8 刘晶茹,王开铸;中文文本自动校对技术研究及系统组成[J];电脑学习;1999年06期

9 刘来e,

本文编号:2230624


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2230624.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户055d8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com