当前位置:主页 > 管理论文 > 移动网络论文 >

基于多策略的维吾尔文网页识别方法

发布时间:2019-09-24 16:23
【摘要】:经过对大量维吾尔文网站的调查与分析,该文从多语种混合网页中针对维吾尔文网页识别进行了研究,这对维吾尔语信息处理工作起着关键作用。首先该文探讨了维吾尔文不规范网页的字符编码转换规则及原理,以此对不规范维吾尔文字符进行了相应的处理,之后介绍了基于修改的N-Gram方法和基于维吾尔语常用词特征向量的两种方法,其中后者融合了维吾尔文常用候选词语料库及向量空间模型(Vector Space Model)。使用三种不同类型的维吾尔文网页文本作为本研究的数据集,在此基础上验证了该文提出的网页识别方法,以及采用不同的方法进行了网页识别的实验。实验结果表明,基于N-Gram的方法对正文较长的新闻或论坛网页的识别性能最佳,反而基于常用词特征向量的方法对短文本的网页识别性能优越N-Gram。所提方法对维吾尔文网页识别的整体性能达到90%以上,并验证了这两种方法的有效性。
【作者单位】: 中国科学院新疆理化技术研究所;新疆民族语音语言信息处理重点实验室;中国科学院大学;新疆师范大学计算机科学技术学院;
【基金】:国家自然科学基金(61662081) 新疆维吾尔自治区青年科技创新人才培养工程项目—面向维汉机器翻译的维吾尔语命名实体识别研究(2014711006);新疆维吾尔自治区青年科技创新人才培养工程项目—维汉机器翻译模型关键技术研究(2014721032) 新疆维吾尔自治区自然科学基金—基于多特征融合的复杂形态语言建模研究(2015211B034) 中科院战略性先导科技专项—新疆少数民族信息处理(XDA06030400)
【分类号】:TP391

【参考文献】

相关期刊论文 前5条

1 艾孜尔古丽;努尔艾合买提;玉素甫·艾白都拉;;现代维吾尔语常用词统计关键技术研究[J];中文信息学报;2014年05期

2 艾孜尔古丽;齐向卫;玉素甫·艾白都拉;;基于网站用词调查的现代维吾尔语词干提取和应用研究[J];计算机应用与软件;2012年03期

3 艾孜尔古丽;艾山江·阿不力孜;玉素甫·艾白都拉;;现代维吾尔文网络媒体用词研究[J];计算机应用与软件;2012年02期

4 庞景安;;Web文本特征提取方法的研究与发展[J];情报理论与实践;2006年03期

5 樊兴华;孙茂松;;一种高性能的两类中文文本分类方法[J];计算机学报;2006年01期

相关硕士学位论文 前1条

1 图尔妮萨古丽·赛麦提;基于N-gram的维吾尔文文本分类研究与系统实现[D];新疆大学;2014年

【共引文献】

相关期刊论文 前10条

1 李满荣;赵宏安;董文静;耿国华;周明全;;基于优先权过滤的自动摘要抽取算法[J];西北大学学报(自然科学版);2017年03期

2 阿斯古力·艾山;艾孜尔古丽;玉素甫·艾白都拉;;现代维吾尔语动词词汇语义词典构建研究[J];电脑知识与技术;2017年08期

3 马慧芳;周汝南;吉余岗;鲁小勇;;融合词语类别特征和语义的短文本分类方法[J];计算机工程与科学;2017年02期

4 阿力木·木拉提;艾孜尔古丽;杨雅婷;李晓;;基于多策略的维吾尔文网页识别方法[J];中文信息学报;2017年01期

5 程光洋;廉彬;;基于AdaBoost算法的养老信息筛选及应用[J];计算机与现代化;2016年12期

6 依不拉音·乌斯曼;王悦;;面向维吾尔跨文字搜索引擎的统一转换机制设计[J];计算机科学;2016年S2期

7 彭杰;石永革;高胜保;;基于对话内容的交互型文本会话主题挖掘[J];电信科学;2016年09期

8 刘锦文;邢凯;芮伟康;张利萍;周慧;;基于信息关联拓扑的互联网社交关系挖掘[J];计算机应用;2016年07期

9 李广丽;陈婧琳;刘斌;殷依;张红斌;;基于Tag-rank和典型相关性分析的在线商品跨媒体检索研究[J];科学技术与工程;2016年14期

10 阿力木·木拉提;艾孜尔古丽;玉素甫·艾拜都拉;;维吾尔语网站识别方法[J];计算机工程与设计;2016年05期

【二级参考文献】

相关期刊论文 前10条

1 艾孜尔古丽;李晓;玉素甫·艾白都拉;;中小学维吾尔语文教材用词数据分析方法研究[J];计算机工程与应用;2014年03期

2 艾孜尔古丽;阿里木·木拉提;苏国平;;现代维吾尔语语言资源监测中数据分析技术研究[J];计算机应用与软件;2013年04期

3 玉素甫·艾白都拉;艾孜尔古丽;祖丽皮亚;;基于网站用词调查的现代维吾尔语词长研究[J];计算机应用与软件;2012年05期

4 玉素甫·艾白都拉;艾孜尔古丽;;基于网站用词调查的现代维吾尔语词尾切分和应用研究[J];计算机应用与软件;2012年04期

5 艾孜尔古丽;齐向卫;玉素甫·艾白都拉;;基于网站用词调查的现代维吾尔语词干提取和应用研究[J];计算机应用与软件;2012年03期

6 艾孜尔古丽;艾山江·阿不力孜;玉素甫·艾白都拉;;现代维吾尔文网络媒体用词研究[J];计算机应用与软件;2012年02期

7 玉素甫·艾白都拉;张海军;艾孜尔古丽;;信息处理用现代维吾尔语词干词类标记集研究[J];信息技术与标准化;2011年06期

8 苏新春;杨尔弘;;2005年度汉语词汇统计的分析与思考[J];厦门大学学报(哲学社会科学版);2006年06期

9 张鹏飞,李峗,刘建毅,钟义信;基于相对词频的文本特征抽取方法[J];计算机应用研究;2005年04期

10 唐晓文;基于本体论的文本特征提取[J];电脑与信息技术;2005年01期

相关硕士学位论文 前10条

1 艾海麦提江·阿布来提;维吾尔文文本分类研究及系统开发[D];新疆大学;2012年

2 马鹏飞;中文文本分类算法研究[D];南京理工大学;2012年

3 王飞;文本分类相关算法的研究与实现[D];哈尔滨工程大学;2012年

4 林少波;中文文本分类特征提取方法的研究与实现[D];重庆大学;2011年

5 陈雅芳;中文文本分类方法研究[D];浙江大学;2010年

6 李保秀;中文文本分类技术研究[D];南昌大学;2010年

7 闫晨;KNN文本分类研究[D];燕山大学;2010年

8 赵小华;KNN文本分类中特征词权重算法的研究[D];太原理工大学;2010年

9 周登;基于N-Gram模型的藏文文本分类技术研究[D];西北民族大学;2010年

10 梅君;中文文本分类的研究与应用[D];南昌大学;2010年

【相似文献】

相关期刊论文 前10条

1 王萌,何婷婷,张伟;基于概念向量空间模型的中文自动文摘系统[J];计算机工程与应用;2005年01期

2 张玉连;张敏;张波;;一种扩展的向量空间模型-隐含语义索引模型研究[J];燕山大学学报;2006年01期

3 李雪峰;刘鲁;张f,

本文编号:2540948


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2540948.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户393ef***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com