藏文网页定题采集方法研究
本文选题:Web检索 切入点:藏文网页采集 出处:《长安大学》2012年硕士论文
【摘要】:与汉文相比,藏文信息处理技术发展较慢,加之缺乏支持藏文搜索引擎,互联网上的藏文信息常常处于“孤立状态”,给用户的查找和获取带来较大的困难。因此,探讨一种通过网络采集藏文信息的方法,对于藏文研究者显得尤为重要。 在分析了网页采集流程、网络爬虫工作基本原理和主题网页采集的相关知识的基础上,对藏文网页的采集方法进行了深入研究: 1.对比分析藏文网页的字体、藏文音节点、藏文高频词等区别于其他网页的特征参数,设计出适合于判断藏文网页的相关算法。 2.探讨了藏文主题爬虫的关键技术,,如藏文分词、主题判断方法以及爬虫的爬行策略等内容,提出基于“导向词”的藏文主题判断方法。 3.研究Heritrix软件,并通过对其关键模块Extractor和Frontierscheduler的改进和扩展,实现“导向词”算法的藏文主题信息网站的抓取;另外,运用哈希算法,扩展Queue-assignment-policy模块,大大提升了爬虫的采集效率。 4.利用HTMLParse软件对采集的新闻信息进行提取,并将新闻的标题、发布时间、来源、正文信息存入数据库。 5.对采集的藏文网页文本进行编码“归一化”处理,转化成国际标准的Unicode编码。 利用上述研究结果,以网页的查准率和查全率为参考指标,对“导向词”主题判断算法的几个阙值进行了测试,根据测试的结果对中国西藏网进行了网页抓取,抓取的准确率在62%左右。测试数据表明,研究结果对于藏文定题信息采集行之有效,具有较高的应用和理论参考价值。
[Abstract]:Compared with the Chinese language, Tibetan information processing technology develops slowly, coupled with the lack of support for Tibetan search engine, Tibetan information on the Internet is often in an "isolated state", which brings great difficulties to the users to find and obtain.Therefore, it is very important for Tibetan researchers to explore a method of collecting Tibetan information through network.On the basis of analyzing the process of web page collection, the basic principle of web crawler and the related knowledge of subject page collection, the collection method of Tibetan web page is deeply studied.1.By comparing and analyzing the characters of Tibetan web pages, such as font, syllable points, high-frequency words and so on, the relevant algorithms suitable for judging Tibetan web pages are designed.2.This paper discusses the key techniques of Tibetan theme crawler, such as the participle of Tibetan language, the judgment method of theme and the crawling strategy of crawler, and puts forward the judgment method of Tibetan subject based on "leading word".3.This paper studies the Heritrix software, improves and extends its key modules, Extractor and Frontierscheduler, realizes the acquisition of Tibetan subject information website of the "leading word" algorithm, and extends the Queue-assignment-policy module by using hash algorithm, which greatly improves the efficiency of crawler collection.4.The HTMLParse software is used to extract the news information collected, and the title, release time, source and text information of the news are stored in the database.5.The collected Tibetan web page text is coded "normalized" and transformed into international standard Unicode code.Taking the precision and recall rate of the web page as the reference index, this paper tests several threshold values of the theme judgment algorithm of "leading word", and grabs the web page of China Tibet net according to the results of the test.The capture accuracy is about 62%.The test data show that the research results are effective for the collection of Tibetan thematic information and have high application and theoretical reference value.
【学位授予单位】:长安大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.09;TP391.1
【参考文献】
相关期刊论文 前10条
1 扎西次仁;《中华大藏经·丹珠尔》藏文对勘本字频统计分析[J];中国藏学;1997年02期
2 陈玉忠,俞士汶;藏文信息处理技术的研究现状与展望[J];中国藏学;2003年04期
3 冯冲;黄河燕;陈肇雄;张亮;;基于字符层马尔科夫模型的多语种识别[J];计算机科学;2006年01期
4 吴丽辉 ,王斌 ,余智华;一种通用Web信息采集系统的设计与实现[J];计算机工程;2005年03期
5 珠杰;欧珠;格桑多吉;;基于DOM修剪的藏文Web信息提取[J];计算机工程;2008年24期
6 李卫疆;赵铁军;朴星海;;网络爬行器的分布式设计[J];计算机工程;2009年04期
7 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
8 李永宏;何向真;艾金勇;于洪志;;藏文编码方式及其相互转换[J];计算机应用;2009年07期
9 王维兰;现代藏文语言单位频率和频级关系的统计分析[J];科学技术与工程;2004年05期
10 陈玉忠,李保利,俞士汶;藏文自动分词系统的设计与实现[J];中文信息学报;2003年03期
相关会议论文 前2条
1 刘汇丹;芮建武;吴健;;藏文网页的编码识别与转换[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
2 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
相关硕士学位论文 前6条
1 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
2 华大年;手机产品信息垂直搜索引擎系统设计与开发[D];武汉理工大学;2011年
3 李京京;主题爬虫的关键技术研究[D];吉林大学;2008年
4 刘运佳;基于Lucene和Heririx构建搜索引擎的研究和示例实现[D];电子科技大学;2008年
5 春燕;藏文编码识别与转换算法的研究与实现[D];西南交通大学;2010年
6 普布旦增;藏文自动分词技术方法研究[D];西藏大学;2010年
本文编号:1708729
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1708729.html