当前位置:主页 > 科技论文 > 软件论文 >

针对中国学生英文文章的词性标注方法

发布时间:2019-05-11 16:41
【摘要】:提出了一种基于词向量的两层词性标注方法,使用少量人工提取的特征,大部分特征可使用词向量和第1层标注向量自动训练得到.该方法将标注集分成两类,分别作为不同层的标注集.首先,对容易标注的类别进行标注;然后,对难以标注的动词或者名词进行第2层标注,将其标注为具体的某类动词或名词.利用该方法对中国学生写的英语文章进行词性标注的准确率可从95.23%提高到95.63%,超过了现有基于词向量词性标注器对相同语料词性标注的准确率.
[Abstract]:A two-layer part-of-speech tagging method based on word vector is proposed in this paper. A small number of manually extracted features are used. Most of the features can be obtained by automatic training of word vectors and layer 1 tagging vectors. In this method, the dimension set is divided into two categories, which are used as the dimension set of different layers. First, the categories which are easy to be labeled are labeled, and then the verbs or nouns which are difficult to be labeled are labeled at the second level, and they are labeled as specific verbs or nouns. The accuracy of part-of-speech tagging of English articles written by Chinese students can be improved from 95.23% to 95.63%, which exceeds the accuracy of the existing part-of-speech tagging of the same corpus based on word vector tagging.
【作者单位】: 北京邮电大学智能科学与技术中心;
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 完么才让;安见才让;;藏语词性标注[J];信息与电脑(理论版);2013年08期

2 魏欧;孙玉芳;;汉语词性标注方法的研究[J];计算机科学;2000年07期

3 王素格,张永奎;基于搭配模式的汉语词性标注规则的获取方法[J];计算机工程与应用;2001年05期

4 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期

5 刘健,郑家恒;基于实例的词性标注方法研究[J];山西气象;2001年02期

6 钱揖丽,郑家恒;汉语语料词性标注自动校对方法的研究[J];中文信息学报;2004年02期

7 张虎,郑家恒,刘江;语料库词性标注一致性检查方法研究[J];中文信息学报;2004年05期

8 吕琳,周世斌,刘玉树;一种高性能英文词性标注器的设计与实现[J];北京理工大学学报;2005年10期

9 牛洪梅;吐尔根;伊不拉音;;维吾尔语的词性标注校对初探[J];微型电脑应用;2006年12期

10 牛洪梅;加米拉·吾守尔;吐尔根·依布拉音;;现代维吾尔语的词性标注校对技术研究[J];伊犁师范学院学报(自然科学版);2007年01期

相关会议论文 前10条

1 刘娅琼;;论汉语语文辞书词性标注[A];中国辞书学会第六届中青年辞书工作者学术研讨会论文集[C];2010年

2 姜尚仆;陈群秀;;基于规则和统计的日语分词和词性标注的研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

3 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年

4 李志江;;关于语文辞书词性标注的探讨[A];中国辞书学文集[C];1998年

5 邢富坤;宋柔;;自动词性标注中语法因素和词汇因素对英汉语的不同影响[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

6 帕里旦·吐尔逊;艾山·吾买尔;吐尔根·依布拉音;早克热·卡德尔;阿力木江·艾沙;;基于最大熵的维吾尔语词性标注模型[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

7 苏祺;昝红英;胡景贺;项锟;;词性标注对信息检索系统性能的影响[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

8 张艳;徐波;;基于转换的错误学习方法的汉语词性自动标注研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年

9 温锁林;;汉语词性自动标注软件兼类词鉴别规则库的设计[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年

10 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年

相关博士学位论文 前2条

1 康才uo;藏语分词与词性标注研究[D];上海师范大学;2014年

2 华却才让;基于树到串藏语机器翻译若干关键技术研究[D];陕西师范大学;2014年

相关硕士学位论文 前10条

1 刘慧敏;中文词性标注及未登录词词性预测研究[D];南京师范大学;2015年

2 刘海峰;基于web语科库的哈萨克语词法分析[D];中央民族大学;2015年

3 朱晓;古汉语编年体的人名实体识别与词性标注[D];复旦大学;2012年

4 赵嘉亿;中文词性标注中异构数据问题研究[D];复旦大学;2014年

5 米尔阿迪力江·麦麦提;基于Morfessor的维吾尔语词干提取和词性标注的研究[D];新疆大学;2015年

6 努尔曙阿克·阿斯哈尔;哈萨克语词性标注软件的开发[D];新疆大学;2015年

7 韩霞;基于半监督隐马尔科夫的汉语词性标注研究[D];大连理工大学;2015年

8 赵梓钧;“N+的+V”与相关的动名兼类分歧词考察[D];黑龙江大学;2015年

9 洛桑嘎登;藏文自动分词与词性标注研究[D];中央民族大学;2016年

10 杨蓓;老挝语分词和词性标注方法研究[D];昆明理工大学;2016年



本文编号:2474668

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2474668.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fb18b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com