蒙古文网络文本识别与采集方法
本文关键词:蒙古文网络文本识别与采集方法 出处:《内蒙古师范大学学报(哲学社会科学版)》2016年04期 论文类型:期刊论文
【摘要】:笔者主要研究实现了蒙古文网页的内容识别,以及使用网络爬虫爬取网页,并自动提取网页中的蒙古文文本,在此基础上将对网络文本做词频统计研究。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网词库,进行词频统计和训练语言模型,这些语料可用于命名实体识别、信息检索、统计机器翻译等研究领域。
【作者单位】: 内蒙古师范大学计算机与信息工程学院;
【分类号】:H212;;TP391
【正文快照】: 随着网络技术的发展,互联网信息变得爆炸式增长。如何有效的获取互联网中信息变得越来越重要,针对英文的互联网信息应用发展较早,中文也在不断发展。经过多年的努力,中文信息处理已经达到了的国际先进水平。但由于中国少数民族语言的研究起步晚,研究人员不足,一直发展得不好,
【相似文献】
相关会议论文 前10条
1 包艳花;图格木勒;;多字体印刷蒙古文识别后处理研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
2 吉仁尼格;;蒙古文同形词的统计法[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
3 呼斯勒;六月;斯日古楞;;浅谈蒙古文通用编辑器几点基本规范[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 道布;;回鹘式蒙古文[A];中国民族古文字[C];1982年
5 道布;;回鹘式蒙古文研究概况[A];中国民族古文字研究[C];1980年
6 白双成;胡其图;木仁;;蒙古文音节切分算法实现及其应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 孟和吉雅;白音门德;敖其尔;田会利;;蒙古文语音合成技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
8 孟和吉雅;敖其尔;巩政;;蒙古文网页制作技术分析[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
9 确精扎布;;蒙古文编码国际标准通过以后研制的几种蒙古文录入系统比较[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
10 宝金良;;蒙古文文本标点符号及其属性字段设置[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
相关重要报纸文章 前10条
1 记者 吉儒木图;手机可以使用蒙古文了[N];内蒙古日报(汉);2007年
2 记者 解太荣;《蒙古秘史》回鹘体蒙古文复原项目完成[N];锡林郭勒日报;2009年
3 孟克;如何打破蒙古文图书产销两难的困境[N];中国民族报;2010年
4 记者 阿斯钢;蒙古国总统签命令推广回鹘式蒙古文[N];新华每日电讯;2010年
5 记者 苏布达;全盟首届蒙古文图书节落幕[N];锡林郭勒日报(汉);2012年
6 陈岗龙 (蒙古族);蒙古文文学翻译的两个问题[N];文艺报;2013年
7 金坛;蒙古文:描绘大自然的千姿百态[N];中国民族报;2014年
8 阿勒得尔图;沙日布却玛:用回鹘体蒙古文还原《蒙古秘史》[N];中国民族报;2006年
9 记者 张文强;蒙古文图书农牧民阅读大接力活动启动[N];内蒙古日报(汉);2008年
10 徐恒泰;要全力抓好蒙古文教学资源建设[N];鄂尔多斯日报;2008年
相关博士学位论文 前8条
1 苏向东;基于深度学习和知识策略的蒙古文古籍识别研究[D];内蒙古大学;2016年
2 淑琴;蒙古文同形词知识库的构建[D];内蒙古大学;2010年
3 达古拉;《清内秘书院蒙古文档案汇编》语言研究[D];内蒙古大学;2012年
4 魏宏喜;蒙古文古籍图像检索技术研究[D];内蒙古大学;2012年
5 通拉嘎;基于蒙古文语料库的人名自动识别[D];中央民族大学;2013年
6 莎日娜;乌兰巴托版蒙古文译本《今古奇观》研究[D];中国社会科学院研究生院;2010年
7 王桂荣;蒙古文字结构研究[D];内蒙古大学;2011年
8 普日布苏荣;蒙古语语料库建设的有关问题[D];内蒙古大学;2015年
相关硕士学位论文 前10条
1 关高娃;蒙古文停用词和英文停用词比较研究[D];内蒙古大学;2011年
2 常红梅;衮布扎布语言论著中的蒙古文阿里嘎礼研究[D];内蒙古大学;2013年
3 刘璐;面向蒙古文增量g┱沟男畔⒓焖骷际跹芯縖D];内蒙古大学;2015年
4 李坤;蒙古文网络热点词提取算法研究[D];内蒙古大学;2015年
5 王洪伟;基于规则和统计的西里尔与传统蒙古文相互转换方法研究[D];内蒙古大学;2015年
6 张畔;蒙古文搜索引擎基本方法的实现[D];内蒙古大学;2015年
7 宋莉;蒙古文字造形元数据的分类编号探讨[D];内蒙古农业大学;2015年
8 青玉;指导小学生蒙古文正字法教学探析[D];内蒙古师范大学;2015年
9 达拉夫;文献学视角下的蒙古文古籍研究[D];内蒙古大学;2015年
10 王亚君;基于Linux IBUS的传统蒙古文输入法的研究与实现[D];内蒙古师范大学;2015年
,本文编号:1333075
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1333075.html