基于统计特征和语法结构的汉语新生词汇的识别
本文关键词:基于统计特征和语法结构的汉语新生词汇的识别
【摘要】:针对传统的汉语切词方法不能有效处理新生词汇识别的问题,提出了一种基于统计信息和语法信息的汉语新生词汇的识别方法。实验表明,该方法可以很好地识别如网络新词、中外人名、地名等一类汉语新生词汇。
【作者单位】: 哈尔滨师范大学管理学院;
【关键词】: 自然语言理解 汉语切词 汉语新生词识别
【基金】:哈尔滨师范大学人文社会科学预研项目(SYB2012-02) 哈尔滨师范大学青年学术骨干支持计划项目(SG2011-03)
【分类号】:H136
【正文快照】: 1引言微博(microblog)已成为当今信息传播最主要的途径之一,为广大网民特别是草根群体提供了“零门槛”的信息发布平台。微博信息传播迅捷,具有洪泛效应,对舆论有很强的引导作用,对现实也有极强的干涉作用。通过微博舆情的研判,可以了解大众的情绪、意见、偏好,为政府理政、
【参考文献】
中国期刊全文数据库 前3条
1 傅赛香,袁鼎荣,黄柏雄,钟智;基于统计的无词典分词方法[J];广西科学院学报;2002年04期
2 邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇;面向Internet的中文新词语检测[J];中文信息学报;2004年06期
3 郑家恒,李文花;基于构词法的网络新词自动识别初探[J];山西大学学报(自然科学版);2002年02期
中国重要会议论文全文数据库 前1条
1 颜伟;;基于动态流通语料库的VSM新词发现策略[A];2004年辞书与数字化研讨会论文集[C];2004年
【共引文献】
中国期刊全文数据库 前10条
1 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期
2 李钝;曹元大;万月亮;;Internet中的新词识别[J];北京邮电大学学报;2008年01期
3 张榕;宋柔;;一种被定义项的识别策略[J];当代语言学;2007年01期
4 李烯;徐朝军;;基于关键词共现的教育信息化工程发展初探[J];电化教育研究;2010年02期
5 高俊波;杨静;;在线论坛中的意见领袖分析[J];电子科技大学学报;2007年06期
6 胡_g;苏雪峰;;特定主题的相关概念挖掘研究与实现[J];电脑开发与应用;2007年02期
7 浦海晨,万晓冬;一种基于文本分类技术的邮件过滤系统设计[J];福建电脑;2005年11期
8 林自芳;蒋秀凤;;基于改进位置成词概率的新词识别[J];福州大学学报(自然科学版);2011年01期
9 朱波;侯敏;;基于特征过滤的新词语提取[J];北华大学学报(社会科学版);2012年05期
10 李新福;赵杰;梁巍;;基于互信息的宋史语料库词表的提取[J];河北大学学报(自然科学版);2006年05期
中国重要会议论文全文数据库 前10条
1 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
2 邓攀;刘功申;;基于标引信息的网络新概念发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
3 龚才春;贺敏;张华平;许洪波;程学旗;;大规模语料的频繁模式快速发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
4 崔世起 ;刘群 ;林守勋 ;孟遥 ;于浩 ;西野文人;;中文缩略语自动抽取初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 李斌;陈小荷;;面向中文陌生文本的人机交互式分词方法[A];第三届学生计算语言学研讨会论文集[C];2006年
6 刘知远;孙茂松;;基于WEB的计算机领域新术语的自动检测[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 黄玉兰;龚才春;许洪波;程学旗;;基于伪相关反馈模型的领域词典生成算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 程涛;施水才;张玉杰;吕学强;;基于大规模语料库的新闻领域新词挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 黄玉兰;龚才春;许洪波;程学旗;;基于局部性原理的有意义串提取方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 韩艳;林煜熙;姚建民;;基于统计信息的未登录词的扩展识别方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
2 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
3 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
4 王平;大规模网络蠕虫检测与传播抑制[D];哈尔滨工业大学;2006年
5 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
6 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
7 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
8 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
9 孙凌云;面向产品概念设计的专利地图技术研究[D];浙江大学;2008年
10 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年
中国硕士学位论文全文数据库 前10条
1 祖金锋;Internet用户访问模型研究[D];哈尔滨理工大学;2010年
2 史迎馨;建筑图中有限自然语言的分析与理解的研究[D];长春工业大学;2010年
3 张朝威;面向企业竞争情报的主题搜索研究与实现[D];西安电子科技大学;2010年
4 周君;Web文本挖掘关键技术的研究与实现[D];西安电子科技大学;2009年
5 魏莎莎;一种中文未登录词识别及词典设计新方法[D];西南大学;2011年
6 丁溪源;基于大规模语料的中文新词抽取算法的设计与实现[D];南京理工大学;2011年
7 刘卫秋;专利信息检索系统的研究与实现[D];中南大学;2010年
8 高超;一种基于综合背景概念格的中文自动文摘方法[D];中南大学;2011年
9 谭冬晨;主观题评分算法模型研究[D];电子科技大学;2011年
10 何爱元;基于词典和概率统计的中文分词算法研究[D];辽宁大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
2 韩客松,王永成,陈桂林;无词典高频字串快速提取和统计算法研究[J];中文信息学报;2001年02期
3 周正宇,李宗葛;一种新的基于统计的词典扩展方法[J];中文信息学报;2001年05期
4 刘挺,吴岩,王开铸;串频统计和词形匹配相结合的汉语自动分词系统[J];中文信息学报;1998年01期
5 黄萱菁;吴立德;王文欣;叶丹瑾;;基于机器学习的无需人工编制词典的切词系统[J];模式识别与人工智能;1996年04期
6 郑家恒,李文花;基于构词法的网络新词自动识别初探[J];山西大学学报(自然科学版);2002年02期
7 张普;关于网络时代语言规划的思考[J];语文研究;1999年03期
8 张普;关于语感与流通度的思考[J];语言教学与研究;1999年02期
9 王铁昆;新词语的判定标准与新词新语词典编纂的原则[J];语言文字应用;1992年04期
10 张普;信息处理用语言知识动态更新的总体思考[J];语言文字应用;2000年02期
中国重要会议论文全文数据库 前1条
1 颜伟;亢世勇;;基于语料库的现代汉语新词语动词语法特征的研究[A];第一届学生计算语言学研讨会论文集[C];2002年
【相似文献】
中国期刊全文数据库 前10条
1 任洁;;自然语言与自然语言理解及其应用[J];科教文汇(上半月);2006年02期
2 范继淹;徐志敏;;自然语言理解的理论和方法[J];当代语言学;1980年05期
3 吴载午;;自然语言理解的联想因子法[J];计算机科学;1988年03期
4 陈功焕;汉语功能语法与机器的自然语言理解[J];河北大学学报(哲学社会科学版);1990年S1期
5 周锡令;关于自然语言理解的理解[J];语言文字应用;1997年04期
6 黄奕;;七十年代后期的自然语言理解[J];当代语言学;1986年03期
7 孙忠霞;;机器翻译自然语言问题探讨[J];牡丹江师范学院学报(哲学社会科学版);2005年02期
8 李振亭;任靖娟;;自然语言理解与机器翻译实现[J];许昌学院学报;2006年02期
9 常宝宝;;自然语言分析与生成术语简介[J];术语标准化与信息技术;2010年04期
10 杨抒;;自然语言的认知模型[J];计算机科学;1988年03期
中国重要会议论文全文数据库 前10条
1 乐明;冯志伟;;RST的理论发展和工程应用综述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 金东日;;在朝汉机器翻译上出现转换的难点[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
3 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
4 刘忠;刘英;刘敦荣;;性质语意逻辑[A];逻辑与认知学术研讨会会议论文集[C];2004年
5 俞士汶;王治敏;朱学锋;;文学语言与自然语言理解研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 陈玉泉;陈宣;陆汝占;;内涵时态逻辑的语义解释系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 傅爱平;;广义依存关系和汉语自动分析[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
8 张克亮;;基于HNC理论的汉英机器翻译策略研究[A];第一届学生计算语言学研讨会论文集[C];2002年
9 龚彦如;李竹;冯志伟;;英——汉计算语言学术语数据库[A];语言文字应用研究论文集(Ⅰ)[C];1995年
10 郝玮;方欣;姚天f ;;句法规则的自动生成[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国重要报纸全文数据库 前1条
1 记者 高敬云;我国少数民族语言信息化进程提速[N];中国民族报;2004年
中国博士学位论文全文数据库 前3条
1 乐明;汉语财经评论的修辞结构标注及篇章研究[D];中国传媒大学;2006年
2 王志栋;语用要点识别模型研究[D];清华大学;2008年
3 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 陈鸿;自然语言理解[D];长春理工大学;2004年
2 魏蓉;限定领域的基本陈述句句法分析[D];天津师范大学;2008年
3 张海丰;自然语言理解中名词短语的歧义处理及其在产品设计中的应用[D];西安电子科技大学;2010年
4 刘加昆;转折句“p∧q”的逻辑分析[D];广西师范大学;2007年
5 许雅缘;基于WordNet的英语隐喻自动处理研究[D];福建师范大学;2008年
6 简丹;自然语言理解中偏正名词短语的研究及其在产品设计中的应用[D];西安电子科技大学;2010年
7 唐兴全;现代汉语复杂句蜕块研究[D];北京语言文化大学;2002年
8 郭敏;概念层次网络理论及其在“把”字句理解中的应用[D];华南师范大学;2003年
9 陈晓辉;递进关系是递进复句的预设[D];广西师范大学;2006年
10 姚炜;面向信息处理的N+N+N结构消歧策略研究[D];华中师范大学;2007年
,本文编号:633544
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/633544.html