基于单字特征和搜索引擎的新词识别
本文选题:新词识别 切入点:单字词 出处:《武汉大学学报(理学版)》2010年06期
【摘要】:新词识别是影响搜索准确率以及速率的重要因素.本文提出了一种基于统计模型和词语搭配的中文新词自动识别方法.采用条件概率的方法提取单字词搭配特征和临界词特征,并采用层次结构实现新词定位以及识别.首先采用双向最大匹配相结合的方法对文本进行词法粗切分,然后根据单字词搭配得到候选新词的位置,用临界词方法确定候选新词的边界,采用改进Nagao串频统计方法对新词候选词在本文内进行重复串统计,对于只在文中出现一次的新词则借助搜索引擎进行确定.对新浪网近期的网络文章进行测试,结果表明,基于本文方法设计的系统可以识别不同领域的新词,在低频词、较长的词以及新词语搭配方面取得了良好的效果.单字词搭配检查发现新词位置综合指标F值达到96.8%.
[Abstract]:Neologism recognition is an important factor affecting search accuracy and speed.This paper presents a new Chinese word recognition method based on statistical model and word collocation.The method of conditional probability is used to extract the collocation feature and critical word feature of single word, and the hierarchical structure is used to locate and recognize new words.First of all, the text is divided into lexical coarse segments by using bidirectional maximum matching method, and then the boundary of candidate neologisms is determined by critical word method according to the location of candidate neologisms according to the collocation of single word words.The improved Nagao string frequency statistics method is used to make repeated string statistics of new word candidates in this paper, and the search engine is used to determine the new words that appear only once in this paper.The results show that the system based on this method can identify new words in different fields and has good results in low frequency words, long words and collocation.Single word collocation check found that the comprehensive index F value of neologism reached 96.8%.
【作者单位】: 武汉大学计算机学院;
【分类号】:TP391.1
【参考文献】
相关期刊论文 前7条
1 崔世起;刘群;孟遥;于浩;西野文人;;基于大规模语料库的新词检测[J];计算机研究与发展;2006年05期
2 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
3 邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇;面向Internet的中文新词语检测[J];中文信息学报;2004年06期
4 王素格;杨军玲;张武;;自动获取汉语词语搭配[J];中文信息学报;2006年06期
5 曹勇刚;曹羽中;金茂忠;刘超;;面向信息检索的自适应中文分词系统[J];软件学报;2006年03期
6 郑家恒,李文花;基于构词法的网络新词自动识别初探[J];山西大学学报(自然科学版);2002年02期
7 王大亮;涂序彦;郑雪峰;佟子健;;多策略融合的搭配抽取方法[J];清华大学学报(自然科学版);2008年04期
【共引文献】
相关期刊论文 前10条
1 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期
2 耿增民;刘万春;朱玉文;;受限领域的自动文摘方法研究[J];北京理工大学学报;2006年08期
3 李钝;曹元大;万月亮;;Internet中的新词识别[J];北京邮电大学学报;2008年01期
4 张榕;宋柔;;一种被定义项的识别策略[J];当代语言学;2007年01期
5 高俊波;杨静;;在线论坛中的意见领袖分析[J];电子科技大学学报;2007年06期
6 胡_g;苏雪峰;;特定主题的相关概念挖掘研究与实现[J];电脑开发与应用;2007年02期
7 李六杏;区凤霞;;基于最优属性约简的中文邮件过滤系统[J];电脑知识与技术(学术交流);2007年05期
8 魏晓宁;;基于隐马尔科夫模型的中文分词研究[J];电脑知识与技术(学术交流);2007年21期
9 张磊;张代远;;中文分词算法解析[J];电脑知识与技术;2009年01期
10 刘韬;;设立切分标志法在中文地址自动分词中的改进与应用[J];电脑知识与技术;2009年11期
相关会议论文 前10条
1 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
2 赵燕平;许榕生;;基于Web的智能电子商务信息咨询系统[A];第11届全国计算机在现代科学技术领域应用学术会议论文集[C];2003年
3 朱春江;陆宇e,
本文编号:1710144
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1710144.html