维吾尔语网站识别方法
本文关键词:维吾尔语网站识别方法
更多相关文章: 维吾尔文 网页文本节点 向量空间模型 网页识别 常用词
【摘要】:通过调查与分析大量维吾尔文网页结构,对互联网中现有的维吾尔文网页进行网页识别研究。探讨维吾尔文不规范网页的字符编码转换方法,为此进行维吾尔文编码标准化处理。考虑维吾尔文网页独有的节点属性,提出一种基于维吾尔文网页文本节点特征的方法,但该方法显示略低的准确率及较多的误判率。结合维吾尔语常用候选词语料和向量空间模型(vector space module),提出一种基于维吾尔语常用词统计学特征的方法,利用测试网页内容和维吾尔语常用候选词语料,并将其以向量来表示,计算测试网页文本的词语在维吾尔语常用候选词中的相应权值,依据相应权值来计算测试网页为维吾尔文网页的概率,进行网页识别。对两种方法进行比较,准确率分别是69.85%和91%。实验结果表明,基于维吾尔语常用词统计学特征的方法比网页文本节点特征的方法具有更高的准确率,验证了该方法的有效性。
【作者单位】: 新疆师范大学计算机科学技术学院;中国科学院新疆理化技术研究所;
【基金】:新疆维吾尔自治区自然科学基金项目(2014211A045) 新疆维吾尔自治区哲学社会科学研究规划基金项目(14CYY093) 教育部人文社会科学一般基金项目(14YJC740001) 新疆维吾尔自治区高校科研计划青年教师科研启动基金项目(20140706213103147) 国家自然科学基金重点项目(61132009);国家自然科学基金项目(61262066) 国家社科基金重点项目(14AZD11)
【分类号】:TP391.1;TP393.092
【正文快照】: 0引言维吾尔语的网页识别方法与信息采集技术的研究成果相对较少,研究成熟的适合现代维吾尔语网页识别方法以及关键技术至关重要。特别是有些维吾尔文网页存在文字代码不规范网页的问题,对于现代维吾尔文网页的全文检索造成了一定的困难,对所有维吾尔语网页进行处理还有很多问
【相似文献】
中国期刊全文数据库 前10条
1 段祥超;禹龙;田生伟;吐尔根·依布拉音;艾斯卡尔·艾木都拉;;维吾尔语意见挖掘关系抽取研究[J];计算机工程与设计;2013年09期
2 程新方;吾守尔·斯拉木;;维吾尔语手机智能输入法的研究与实现[J];新疆大学学报(自然科学版);2010年01期
3 阿里甫·库尔班;吾买尔江·库尔班;吐尔根·伊布拉音;;面向信息处理的维吾尔语词语分类体系及标记研究(Ⅱ)[J];新疆大学学报(自然科学版);2010年01期
4 玉素甫·艾白都拉;齐向伟;艾孜尔古丽;;维吾尔语方言资源整理及语言地图的设计[J];数字技术与应用;2012年07期
5 热依曼·吐尔逊;吾守尔·斯拉木;;一种维吾尔语联机手写识别系统[J];中文信息学报;2014年03期
6 王健飞;郭志川;叶晓舟;刘春梅;;一种嵌入式系统汉语与维吾尔语双语显示的方法[J];网络新媒体技术;2013年02期
7 米吉提·阿布力米提,库尔班·吾布力;在多文种环境下的维吾尔语文字校对系统的开发研究[J];系统工程理论与实践;2003年05期
8 麦热哈巴·艾力;王志洋;吐尔根·依布拉音;;一种提高维吾尔语-汉语词语对齐的方法研究[J];小型微型计算机系统;2012年11期
9 麦热哈巴·艾力;姜文斌;吐尔根·依布拉音;;维吾尔语词法中音变现象的自动还原模型[J];中文信息学报;2012年01期
10 玉素甫·艾白都拉;姚天f ;吾守尔·斯拉卡;;维吾尔语句法描述和分析方法[J];中文信息;1996年04期
中国重要会议论文全文数据库 前4条
1 艾山·吾买尔;吐尔根·依不拉音;早克热·卡德尔;;维吾尔语名词词干提取算法的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 艾斯卡尔·肉孜;宗成庆;姑丽加玛丽·麦麦提艾力;热合木·马合木提;艾斯卡尔·艾木都拉;;基于条件随机场的维吾尔人名识别方法[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
3 江海燕;刘岩;卢莉;;维吾尔语疑问语调的实验分析[A];第九届全国人机语音通讯学术会议论文集[C];2007年
4 阿比达.吾买尔;吐尔根.依布拉音;;维吾尔文音节切分方法的研究与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前1条
1 麦热哈巴·艾力;基于实例的维汉机器翻译若干关键问题研究[D];新疆大学;2014年
中国硕士学位论文全文数据库 前10条
1 邹志华;维吾尔语新闻话题识别技术研究[D];新疆大学;2013年
2 米吉提·阿布力米提;维吾尔语文字校对系统[D];新疆大学;2001年
3 李丰军;基于WinCE的维吾尔语智能输入法的研究与实现[D];新疆大学;2008年
4 邹岳琳;维吾尔语时间表达式识别研究[D];新疆大学;2014年
5 钟军;维吾尔语领域术语抽取研究[D];新疆大学;2014年
6 王慧云;维吾尔语比较句型及关系的识别[D];新疆大学;2014年
7 段祥超;维吾尔语意见挖掘关系抽取研究[D];新疆大学;2014年
8 陈洋;维吾尔语不良文本信息过滤技术研究[D];新疆大学;2014年
9 罗亚伟;细颗粒度维吾尔语文本情感分析研究[D];新疆大学;2015年
10 沙吾提江·亚森;基于本体的维吾尔语语义搜索引擎的研究与实现[D];电子科技大学;2015年
,本文编号:1218266
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1218266.html