Web藏文文本资源挖掘与利用研究
本文选题:Web 切入点:语料 出处:《中文信息学报》2015年01期
【摘要】:该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。
[Abstract]:Combined with link analysis technology and Tibetan coding recognition technology, this paper uses web crawlers to mine Tibetan text resources on the Internet, and analyzes the distribution of Tibetan text resources in Web. More than 50% of domestic Tibetan language websites are in Qinghai Province; about 87% of Tibetan language pages are concentrated in 31 large websites. People are gradually abandoning old Tibetan codes and using Unicode codes to make web pages. They use HTML tags and belong to columns. These texts can be extracted by natural tagging information such as punctuation marks, text corpus and text classification corpus can be constructed, word frequency statistics and Tibetan language language model can be trained by extracting Internet Tibetan lexicon. These data can be used in Tibetan word segmentation, named entity recognition, information retrieval, statistical machine translation and so on.
【作者单位】: 中国科学院软件研究所;中国科学院大学;
【基金】:国家自然科学基金(61202219,61202220,61303165) 中国科学院信息化专项经费资助(XXH12504-1-10)
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 叶碧云,刘青;基于Web技术的设备管理信息系统[J];洪都科技;2003年02期
2 何志勇 ,何绍荣;基于WEB的学生成绩管理系统[J];自贡师范高等专科学校学报;2003年04期
3 刘庆红;基于Web的综合教务管理信息系统的分析与设计[J];吉林省经济管理干部学院学报;2004年01期
4 贾志娟,胡明生;基于Web的答疑系统设计与实现[J];河南纺织高等专科学校学报;2004年03期
5 王斌,刘浙;基于Web的电力调度自动化系统的实现[J];计算机与现代化;2004年11期
6 尹健康,宋红文,朱伏平,杜祥兵;基于Web的设备管理信息系统设计与研究[J];西南科技大学学报(自然科学版);2004年03期
7 盛志伟,刘仕筠,刘双虎;基于Web的网络考试系统的设计与实现[J];计算机与现代化;2005年07期
8 耿道武;Web服务提供银行中间业务新形式[J];华南金融电脑;2005年08期
9 石建玲,印建平,葛敬霞,李红彦;基于Web设备管理信息系统中设备分类编码规则的研究[J];现代制造工程;2005年09期
10 尤超常;浅谈WEB数据挖掘[J];中国科技信息;2005年04期
相关会议论文 前10条
1 黄海林;孙向阳;;基于Web的大学物理试题管理系统的设计[A];湖北省物理学会、武汉物理学会成立70周年庆典暨2002年学术年会论文集[C];2002年
2 于莉莉;张毅;;基于Web的人力资源管理系统研究与设计[A];2008全国制造业信息化标准化论坛论文集[C];2008年
3 李中华;;企业Web应用安全威胁与防护[A];创新·融合·发展——创新型煤炭企业发展与信息化高峰论坛论文集[C];2010年
4 刘兵;何新林;张伟;吴东峰;何小莲;;基于Web的奎屯河流域水库调度自动化系统研究[A];第三届全国水力学与水利信息学大会论文集[C];2007年
5 刘颖;;基于Web的学生信息管理系统的设计与实现[A];2008年计算机应用技术交流会论文集[C];2008年
6 张玉艳;黄国栋;冯文堂;侯金奎;;一种模型驱动的WEB报表系统开发方法[A];第二十七届中国控制会议论文集[C];2008年
7 李毅;顾健;顾铁军;;系统等级保护中的Web应用安全评估[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
8 叶良;刘富强;邓戈;赵忠;;基于WEB的数字视频监控系统开发[A];第十二届全国煤矿自动化学术年会论文专辑[C];2002年
9 刘岩;阎钦运;张刚;;基于WEB的企业人力资源管理系统的研究与实现[A];第十七届全国煤矿自动化学术年会、中国煤炭学会自动化专业委员会学术会议论文集[C];2007年
10 粟智;;基于Web技术下的分析实验室计算机网络管理系统的开发与设计[A];2003年药物分析论坛“热分析在药物分析中的应用”专题学术研讨会论文集[C];2003年
相关重要报纸文章 前10条
1 本报记者 刘继安;准备好了吗?WEB教师[N];中国教育报;2001年
2 张承东;Web智能考核广告[N];网络世界;2009年
3 科讯;WEB教师——一个全新职业的透析[N];科技日报;2001年
4 王雅丽;博客社区齐上阵 银行借Web 2.0拉拢未来客户[N];中国计算机报;2008年
5 本报记者 黄智军;Web应用呼唤新型安全系统[N];计算机世界;2009年
6 居易;WEB教师热门起来[N];组织人事报;2001年
7 本报记者 赵晓涛;四问“Web防御与云安全”[N];网络世界;2008年
8 本报记者 徐恒;手机浏览器:竞争不断加剧 Web大势所趋[N];中国电子报;2009年
9 电脑商报记者 张戈;Web应用安全正当时[N];电脑商报;2010年
10 李晨;Web应用安全应贯穿生命周期[N];人民邮电;2009年
相关博士学位论文 前10条
1 孙慧峰;基于协同过滤的个性化Web推荐[D];北京邮电大学;2012年
2 何儒汉;Web图像的多模融合检索研究[D];华中科技大学;2007年
3 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
4 龙慧云;基于进程代数的Web服务数据和组合的形式化方法研究[D];贵州大学;2009年
5 孙涛;面向市场情报分析的Web实体事件融合问题研究[D];山东大学;2014年
6 谢琪;基于协同过滤与QoS的个性化Web服务推荐研究[D];重庆大学;2012年
7 刘晓光;网络化制造中Web服务自动组合的若干关键技术研究[D];上海交通大学;2008年
8 刘方方;Web服务合成与可用性的若干关键技术研究[D];复旦大学;2007年
9 李杰;基于服务质量的Web服务模型及应用研究[D];中国科学院研究生院(计算技术研究所);2005年
10 许洪波;大规模信息过滤技术研究及其在Web问答系统中的应用[D];中国科学院研究生院(计算技术研究所);2003年
相关硕士学位论文 前10条
1 曾确令;基于WEB挖掘的消费者细分及推荐应用研究[D];吉林大学;2009年
2 袁桂兰;WEB分布式数据库系统的研究与实现[D];中国人民解放军信息工程大学;2002年
3 李超俊;基于Web的客户信息管理系统的开发[D];吉林大学;2011年
4 焦威;面向Web应用的构件组装系统研究与实现[D];西安理工大学;2009年
5 李吉平;基于Web技术的森林资源信息管理系统研建[D];西北农林科技大学;2009年
6 白洁婷;基于Web的在线虚拟实验室的研究[D];华中科技大学;2009年
7 吴卉;基于Web的机械零件库浏览系统的研发[D];南京航空航天大学;2010年
8 田振强;基于Web的小麦信息管理系统的构建[D];河南农业大学;2010年
9 张平;基于Web技术的压铸模具协同设计原理与应用系统研究[D];四川大学;2005年
10 谢春丽;基于数据挖掘的Web行为特征分析与研究[D];苏州大学;2003年
,本文编号:1653418
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1653418.html