当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于web的藏文文本自动分类研究与实现

发布时间:2018-04-05 17:40

  本文选题:藏文网页 切入点:自动分类 出处:《青海民族大学》2012年硕士论文


【摘要】:随着互联网的普及和藏文信息技术的发展,藏文网站的数量越来越多,藏文信息资源从匮乏的时代过渡到极为丰富的藏文数字化时代。但面对海量的藏文信息资源,人们又很难得到实际需要的信息。因此,,人们常对藏文网页按照其内容进行分类。 目前,用传统的分类方法来处理是不切实际的,必须借助计算机对藏文网页进行自动分类,一来减少了人力的耗费和财力的投资,二来提高了网页分类的效率和准确率。因此,用计算机进行藏文网页文本的自动分类,可以满足人们所期望对各类藏文文本分类应用需求,这也成为迫在眉睫的研究课题。笔者认为对藏文网页文本自动分类的研究在藏文搜索引擎、藏文数字图书馆和藏文出版等领域,以及对推动藏文信息技术的发展与应用有着重要的现实意义和使用价值。 本文主要对藏文网页的净化、藏文分词、特征选取、权值计算、分类算法等相关技术进行了较深入的分析和研究,其中重点研究了藏文分词和藏文网页分类算法,并借鉴现有的中英文分类算法,提出了符合藏文文法及藏文字结构特征的分类算法,即词频统计+词匹配法、基于标题的藏文网页分类算法和基于导航栏的藏文网页分类算法的一种新的混合分类算法,该方法大大提高了基于web的藏文文本自动分类系统的查全率和查准率。最后实现了基于web的藏文文本自动分类系统,同时对实验结果进行了分析并具有良好的分类结果。
[Abstract]:With the popularization of the Internet and the development of Tibetan information technology, the number of Tibetan websites is increasing, and the Tibetan information resources transition from the era of scarcity to the extremely rich digital era of Tibetan language.But in the face of massive Tibetan information resources, it is difficult for people to get the actual information.Therefore, people often classify Tibetan web pages according to their content.At present, it is impractical to use the traditional classification method to classify Tibetan web pages automatically with the help of computer, which not only reduces the cost of manpower and financial resources, but also improves the efficiency and accuracy of web page classification.Therefore, the automatic classification of Tibetan web pages by computer can meet the needs of all kinds of Tibetan text classification, which has become an urgent research topic.The author thinks that the research on automatic text classification of Tibetan web pages is of great practical significance and practical value in Tibetan search engine, Tibetan digital library and Tibetan publishing, as well as in promoting the development and application of Tibetan information technology.In this paper, the purification of Tibetan web pages, Tibetan word segmentation, feature selection, weight calculation, classification algorithm and other related techniques are analyzed and studied deeply, among which, Tibetan word segmentation and Tibetan web page classification algorithms are mainly studied.Using the existing Chinese and English classification algorithms for reference, this paper puts forward a classification algorithm that accords with Tibetan grammar and Tibetan characters' structural features, that is, word frequency statistical word matching method.A new hybrid classification algorithm for Tibetan web pages based on title and navigation bar is proposed, which greatly improves the recall and precision of the automatic classification system of Tibetan text based on web.Finally, an automatic Tibetan text classification system based on web is implemented, and the experimental results are analyzed and good classification results are obtained.
【学位授予单位】:青海民族大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:H214

【相似文献】

相关期刊论文 前10条

1 才旦夏茸 ,张凤翮;关于藏族历代翻译家梵译藏若干问题之研究[J];西北民族大学学报(哲学社会科学版);1985年03期

2 于洪志;藏文编码:我们的宝贝孩子[J];民族团结;1999年08期

3 南楼一雁;;洞内惊魂[J];故事世界;2009年16期

4 戴忠沛;;五份新见藏文注音西夏文残片校释[J];宁夏社会科学;2009年06期

5 多杰卓玛;;现代藏语词语信息库构建研究[J];电脑开发与应用;2010年07期

6 达哇彭措;;藏文字处理元辅音可搭配形式统计[J];科技信息;2011年17期

7 张建木;读《唐蕃会盟碑》札记二则[J];中央民族大学学报(哲学社会科学版);1981年01期

8 张连生;;藏文号码代字及其计算机排索[J];语言研究;1983年02期

9 毛继祖;解放前青海省藏文木刻本科技图书印行概况[J];青海民族学院学报;1989年03期

10 郭登元;汉诗(词)藏译浅谈之一[J];青海民族学院学报;1990年02期

相关会议论文 前10条

1 马良成;运中旺苏;张步明;;北宋“崇宁重宝背藏文钱”初探[A];甘肃省钱币学会第四次会员代表大会专辑[C];2001年

2 运中旺苏;张步明;;北宋“崇宁重宝背藏文钱”再探[A];第二届西北五省区钱币学会协作会议专辑[C];2002年

3 胡丹;;对文物征集与馆藏文物调整的思考[A];赣博论坛——博物馆现状与发展前瞻论文集(一)[C];2003年

4 于洪志;;藏文信息交换技术的研究与实现[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年

5 刘汇丹;诺明花;赵维纳;吴健;贺也平;;藏文编码转换软件“藏码通”的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

6 陈乃雄;;一枚藏文钱释[A];《内蒙古金融研究》钱币文集(第三辑)[C];2003年

7 孙文景;;藏文因明书目[A];因明新探——首届因明学术讨论会论文集[C];1983年

8 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年

9 褚媛萍;;合理开发、利用博物馆馆藏文物资源 充分发挥其社会教育功能[A];萃英集——青海省教育委员会、青海省教育学会优秀教育论文集[C];2000年

10 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

相关重要报纸文章 前10条

1 本报记者 王向华;藏文图书“走进”藏区农家书屋[N];四川日报;2009年

2 记者 涂洪长;手机藏文资讯研发启动[N];人民日报海外版;2009年

3 本报记者 康 丽 茅卫东;阿牛和他的普利藏文学校[N];中国教师报;2005年

4 记者 王杰;藏文软件推广应用项目启动仪式在拉萨举行[N];西藏日报;2009年

5 涂洪长;手机藏文资讯研发启动 藏文将畅游无线通信网络[N];中国民族报;2009年

6 德吉 边巴次仁;藏文走在我国少数民族文字信息化前列[N];中国民族报;2008年

7 记者 张黎黎 晓勇;让藏文驰骋在信息高速路上[N];西藏日报;2010年

8 记者 朗杰 裘立华;藏文词典越来越厚[N];新华每日电讯;2002年

9 本报记者 王坤宁;我国藏文出版驶入快车道[N];中国新闻出版报;2009年

10 记者 根秋多吉 克珠;本报选送的10件藏文新闻作品获奖[N];甘孜日报(汉文);2007年

相关博士学位论文 前10条

1 芮建武;操作系统国际化基础的研究与实践[D];中国科学院研究生院(软件研究所);2005年

2 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年

3 那加才旦;古代藏语文研究(7-11 A.D.)[D];中央民族大学;2012年

4 斯塔;本体、方法、境界[D];中央民族大学;2007年

5 段玉泉;语言背后的文化流传:一组西夏藏传佛教文献解读[D];兰州大学;2009年

6 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年

7 张云;元代吐蕃地方行政体制研究[D];南京大学;1993年

8 乌云毕力格;论《苏布喜地》及其对蒙古箴言诗的影响[D];内蒙古大学;2009年

9 王献军;西藏政教合一制研究[D];南京大学;1997年

10 王璞;藏族史学思想论纲[D];云南大学;2002年

相关硕士学位论文 前10条

1 叶西切忠;基于web的藏文文本自动分类研究与实现[D];青海民族大学;2012年

2 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年

3 黄瑜青;基于支持向量机的文本自动分类器的研究与应用[D];广东工业大学;2012年

4 袁路妍;钨层文本自动分类技术的研究与应用[D];东华大学;2011年

5 包立伟;面向信息检索的文本自动分类技术研究[D];华东理工大学;2013年

6 李真;基于贝叶斯的XML文本自动分类技术研究[D];吉林大学;2010年

7 聂璐;WEB文本自动分类的设计与实现[D];西北大学;2009年

8 普布旦增;藏文自动分词技术方法研究[D];西藏大学;2010年

9 尼马才让;藏文书面语发展历史研究[D];西北民族大学;2011年

10 符会涛;基于互信息的文本自动分类特征选择方法研究[D];新疆大学;2011年



本文编号:1715828

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1715828.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b7ad1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com