融合词频特性及邻接变化数的微博新词识别
本文关键词:融合词频特性及邻接变化数的微博新词识别 出处:《山东大学学报(理学版)》2015年03期 论文类型:期刊论文
更多相关文章: 邻接变化数 微博新词 字串频率统计 成词规则
【摘要】:大量的新词伴随着微博的快速发展而产生,这些新词具有传播速度快及与其他词组合方式灵活的特点,而且在进行分词处理时容易被切分为不同的字符串。提出了一种融合词频特性及邻接变化数的微博新词识别方法。该方法首先对大规模的微博语料进行分词,然后将在两停用词间的相邻字串两两组合,根据组合后的字串频率统计取得新词候选串,再通过组合成词规则进行筛选获得候选新词,最后通过词的邻接域变化特性去除垃圾串获得新词。利用该方法在COAE 2014评测任务上进行了新词的发现实验,准确率达到36.5%,取得了较好的成绩。
【作者单位】: 昆明理工大学信息工程与自动化学院计算机系 云南省计算机技术应用重点实验室;
【基金】:国家自然科学基金资助项目(61462055,61462054,61175068,61363044)
【分类号】:TP393.092;TP391.1
【正文快照】: 0引言在微博中涌现的大量新词在人们的日常交流中起着重要的作用,能够更丰富全面地表达人们的观点及情感,同时也是社会趋势与新闻事件的折射。在自然语言处理过程中,新词识别一直是一个难点问题,其在中文分词、信息检索、问答系统等方面都有着非常重要的应用。分析发现,微博中
【参考文献】
相关期刊论文 前6条
1 崔世起;刘群;孟遥;于浩;西野文人;;基于大规模语料库的新词检测[J];计算机研究与发展;2006年05期
2 刘建舟,何婷婷,骆昌日;基于语料库和网络的新词自动识别[J];计算机应用;2004年07期
3 周正宇,李宗葛;一种新的基于统计的词典扩展方法[J];中文信息学报;2001年05期
4 邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇;面向Internet的中文新词语检测[J];中文信息学报;2004年06期
5 何赛克;王小捷;董远;张韬政;白雪;;归一化的邻接变化数方法在中文分词中的应用[J];中文信息学报;2010年01期
6 郑家恒,李文花;基于构词法的网络新词自动识别初探[J];山西大学学报(自然科学版);2002年02期
【共引文献】
相关期刊论文 前10条
1 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期
2 李钝;曹元大;万月亮;;Internet中的新词识别[J];北京邮电大学学报;2008年01期
3 张榕;宋柔;;一种被定义项的识别策略[J];当代语言学;2007年01期
4 李烯;徐朝军;;基于关键词共现的教育信息化工程发展初探[J];电化教育研究;2010年02期
5 高俊波;杨静;;在线论坛中的意见领袖分析[J];电子科技大学学报;2007年06期
6 胡_g;苏雪峰;;特定主题的相关概念挖掘研究与实现[J];电脑开发与应用;2007年02期
7 林自芳;蒋秀凤;;基于改进位置成词概率的新词识别[J];福州大学学报(自然科学版);2011年01期
8 刘永超;刘宜轩;;字串结合紧密度的计算方法研究[J];计算机光盘软件与应用;2012年02期
9 朱波;侯敏;;基于特征过滤的新词语提取[J];北华大学学报(社会科学版);2012年05期
10 欧阳柳波;邹北骥;刘丽杰;;一种基于混合判定模型的复合概念抽取方法[J];电子学报;2013年03期
相关会议论文 前10条
1 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
3 邓攀;刘功申;;基于标引信息的网络新概念发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
4 龚才春;贺敏;张华平;许洪波;程学旗;;大规模语料的频繁模式快速发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 崔世起 ;刘群 ;林守勋 ;孟遥 ;于浩 ;西野文人;;中文缩略语自动抽取初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 张勇;何婷婷;;基于质子串分解的网络新词汇自动抽取[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 刘知远;孙茂松;;基于WEB的计算机领域新术语的自动检测[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 黄玉兰;龚才春;许洪波;程学旗;;基于伪相关反馈模型的领域词典生成算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 程涛;施水才;张玉杰;吕学强;;基于大规模语料库的新闻领域新词挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 黄玉兰;龚才春;许洪波;程学旗;;基于局部性原理的有意义串提取方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
相关博士学位论文 前10条
1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
2 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
3 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
4 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
5 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
6 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
7 孙凌云;面向产品概念设计的专利地图技术研究[D];浙江大学;2008年
8 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年
9 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
10 欧阳柳波;领域本体覆盖度评价关键技术研究[D];中南大学;2012年
相关硕士学位论文 前10条
1 史迎馨;建筑图中有限自然语言的分析与理解的研究[D];长春工业大学;2010年
2 魏莎莎;一种中文未登录词识别及词典设计新方法[D];西南大学;2011年
3 郭志华;基于字符属性的关系数据库零水印算法研究[D];兰州大学;2011年
4 丁溪源;基于大规模语料的中文新词抽取算法的设计与实现[D];南京理工大学;2011年
5 刘卫秋;专利信息检索系统的研究与实现[D];中南大学;2010年
6 高超;一种基于综合背景概念格的中文自动文摘方法[D];中南大学;2011年
7 何爱元;基于词典和概率统计的中文分词算法研究[D];辽宁大学;2011年
8 李婷婷;网络词语造词法及语用义研究[D];安徽大学;2011年
9 周春波;面向WI输入法的新词发现技术研究与实现[D];哈尔滨工业大学;2011年
10 李雪峰;社保审计领域语料库构建研究[D];哈尔滨工程大学;2011年
【二级参考文献】
相关期刊论文 前10条
1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
2 韩客松,王永成,陈桂林;无词典高频字串快速提取和统计算法研究[J];中文信息学报;2001年02期
3 周正宇,李宗葛;一种新的基于统计的词典扩展方法[J];中文信息学报;2001年05期
4 孙茂松,,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
5 刘挺,吴岩,王开铸;串频统计和词形匹配相结合的汉语自动分词系统[J];中文信息学报;1998年01期
6 黄萱菁;吴立德;王文欣;叶丹瑾;;基于机器学习的无需人工编制词典的切词系统[J];模式识别与人工智能;1996年04期
7 陈玉泉,顾顺莲,陆汝占;计算机辅助新词新语词典的编纂[J];上海交通大学学报;2000年07期
8 郑家恒,李文花;基于构词法的网络新词自动识别初探[J];山西大学学报(自然科学版);2002年02期
9 隋岩;动态流通语料库理论的概念和方法[J];语言文字应用;2000年02期
10 陈小荷;自动分词中未登录词问题的一揽子解决方案[J];语言文字应用;1999年03期
相关会议论文 前1条
1 朱凯;周杰;何婷婷;;因特网语料自动下载分析软件的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
本文编号:1328347
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1328347.html