基于词或词组长度和频数的短中文文本关键词提取算法
本文关键词:基于词或词组长度和频数的短中文文本关键词提取算法,,由笔耕文化传播整理发布。
【摘要】:中文文本的关键词提取是自然语言处理研究中的难点。国内外大部分关键词提取的研究都是基于英文文本的,但其并不适用于中文文本的关键词提取。已有的针对中文文本的关键词提取算法大多适用于长文本,如何从一段短中文文本中准确地提取出具有实际意义且与此段中文文本的主题密切相关的词或词组是研究的重点。提出了面向中文文本的基于词或词组长度和频数的关键词提取算法,此算法首先提取文本中出现频数较高的词或词组,再根据这些词或词组的长度以及在文本中出现的频数计算权重,从而筛选出关键词或词组。该算法可以准确地从中文文本中提取出相对重要的词或词组,从而快速、准确地提取此段中文文本的主题。实验结果表明,基于词或词组长度和频数的中文文本关键词提取算法与已有的其他算法相比,可用于处理中文文本,且具有更高的准确性。
【作者单位】: 江苏大学计算机科学与通信工程学院;
【关键词】: 提取 中文文本处理 音译词 网络新词
【基金】:国家自然科学基金项目(61300228) 江苏省教育厅自然科学基金(09KJB520003)资助
【分类号】:TP391.1
【正文快照】: 到稿日期:2015-11-04返修日期:2016-03-13本文受国家自然科学基金项目(61300228),江苏省教育厅自然科学基金(09KJB520003)资助。Keywords Keyword extraction,Chinese text processing,Transliterated words,Internet new words1引言面对现今世界海量的文本信息,人们迫切需要
【相似文献】
中国期刊全文数据库 前10条
1 兰杰;在西文状态下阅读中文文本文件[J];电脑知识;1997年02期
2 骆卫华,罗振声,宫小瑾;中文文本自动校对技术的研究[J];计算机研究与发展;2004年01期
3 顾益军,樊孝忠,于江德,李良富;受限领域中文文本主题标引系统研究[J];计算机应用;2004年01期
4 李长荣,阚戈;中文文本2-分类模型在上证指数趋势分析中的应用研究[J];齐齐哈尔大学学报;2005年02期
5 许细清;林世平;;面向中文文本的观点检索技术研究[J];福州大学学报(自然科学版);2010年05期
6 薛丽敏;李殿伟;肖斌;;中文文本情感倾向性五元模型研究[J];通信技术;2011年07期
7 韩清月;;浅谈对外传播中文文本的写作[J];对外传播;2012年10期
8 刘开瑛,薛翠芳,郑家恒,周晓强;中文文本中抽取特征信息的区域与技术[J];中文信息学报;1998年02期
9 刘晶茹,王开铸;中文文本自动校对技术研究及系统组成[J];电脑学习;1999年06期
10 游荣彦;中文文本简易压缩与即时加密研究[J];计算机工程与设计;1999年06期
中国重要会议论文全文数据库 前10条
1 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[A];浙江省电子学会2010学术年会论文集[C];2010年
2 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
3 宋兰;孙茂松;;中文文本全文查重的实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 李思;张浩;徐蔚然;郭军;;基于合并模型的中文文本情感分析[A];第五届全国信息检索学术会议论文集[C];2009年
5 徐幸;王厚峰;;中文文本蕴含的推理模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 徐艳华;;中文文本中时间日期表达形式的自动检索[A];2004年辞书与数字化研讨会论文集[C];2004年
7 张云涛;龚玲;王永成;;识别中文文本中的未登录专有名词的类别[A];2007年中国智能自动化会议论文集[C];2007年
8 甘灿;孙星明;刘玉玲;向凌云;;一种改进的基于同义词替换的中文文本信息隐藏方法[A];第七届全国信息隐藏暨多媒体信息安全学术大会论文集[C];2007年
9 蒙应杰;司蕾;是W
本文编号:473656
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/473656.html