当前位置:主页 > 科技论文 > 搜索引擎论文 >

大规模异构环境下的文本分类算法研究及应用

发布时间:2018-10-29 19:16
【摘要】:以网络为重要组成部分的计算机应用走到了一个空前繁荣的时代,各种新的应用环境、应用需求纷纷出现,在一些如搜索引擎、社交网络等大规模应用中,数据每天都在以极高的速度增长。如何能在有效时间内快速地对这些数据进行处理,获得其中的应用价值,,是业界正在努力解决的问题。同时,多数的数据都是以异构的形式存在,使得对其利用的过程变得更加具有挑战性。 文本分类作为一门比较重要的技术,在大规模的数据环境下也同样很重要,它使得我们能够快速地获得未知文档的类别,对于信息的处理是非常有益的。传统的分类算法固然有诸多优点,但是速度多存在限制,这对一些高数据流量的环境是不相称的。对于如何解决这些问题,论文中作者做了以下几点尝试: 1)基于一些传统分类领域的优秀思想,提出了一种基于单字计算的快速文本分类算法; 2)为了能够快速抓取网页,设计出一种简洁、可扩展的分布式网页爬虫; 3)对如何利用XML技术对异构数据进行整合做了研究,在网页处理环节里,设计出了一种利用网页的DOM结构快速抽取网页正文的算法; 4)实现了一个可运行的通用检索系统,整合了按分类检索的功能,方便用户对搜索结果进行进一步的过滤细化,提高检索质量。
[Abstract]:The computer application which takes the network as the important component has entered an unprecedented prosperous era, various new application environments, the application demand appears one after another, in some large-scale applications such as the search engine, the social network and so on, The data is growing at a very high rate every day. How to process these data quickly and obtain the application value in the effective time is a problem that the industry is trying to solve. At the same time, most of the data exists in heterogeneous form, which makes the process of using it more challenging. As an important technology, text classification is also very important in large-scale data environment. It enables us to quickly obtain the categories of unknown documents, which is very useful for the processing of information. The traditional classification algorithm has many advantages, but the speed is limited, which is not suitable for some high data traffic environment. As to how to solve these problems, the author has made the following attempts: 1) based on some excellent ideas in traditional classification field, a fast text classification algorithm based on word computing is proposed; 2) in order to capture web pages quickly, a simple and extensible distributed web crawler is designed. 3) how to integrate heterogeneous data with XML technology is studied. In the process of web pages, an algorithm is designed to extract the text of web pages quickly by using the DOM structure of web pages. 4) A running universal retrieval system is implemented, which integrates the function of classified retrieval, which is convenient for users to further filter and refine the search results and improve the retrieval quality.
【学位授予单位】:河北科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 于洪波;;中文分词技术研究[J];东莞理工学院学报;2010年05期

2 王伟;许云峰;高凯;;基于哈希表的动态向量降维方法的研究及应用[J];河北科技大学学报;2011年04期

3 郝伟;杨国霞;郝志杰;;专业搜索引擎搜索结果融合算法研究[J];河北科技大学学报;2011年04期

4 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期

5 周源远,王继成,郑刚,张福炎;Web页面清洗技术的研究与实现[J];计算机工程;2002年09期

6 李红莲,王春花,袁保宗;一种改进的支持向量机NN-SVM[J];计算机学报;2003年08期

7 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期

8 邱莎;段玻;申浩如;丁海燕;;基于条件随机场的中文人名识别研究[J];昆明学院学报;2011年06期

9 梁强;吴柳燕;聂伟;;基于SVM和概率统计的文本分类方法研究[J];柳州职业技术学院学报;2010年02期

10 黄科,马少平;基于统计分词的中文网页分类[J];中文信息学报;2002年06期

相关博士学位论文 前3条

1 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年

2 裴志利;数据挖掘技术在文本分类和生物信息学中的应用[D];吉林大学;2008年

3 秦玉平;基于支持向量机的文本分类算法研究[D];大连理工大学;2008年

相关硕士学位论文 前8条

1 柯青;网络环境下异构信息检索标准体系研究[D];武汉大学;2004年

2 李珍辉;基于Web services的异构信息系统安全互操作研究[D];湘潭大学;2007年

3 杨林波;快速文本分类研究[D];江南大学;2008年

4 冯小琴;基于技术接受模型的信息检索可视化研究[D];华中师范大学;2009年

5 浦晓斌;专利异构信息资源互操作的研究与实现[D];南京理工大学;2009年

6 黄启虎;基于仿生模式识别的文本分类技术研究[D];哈尔滨工业大学;2008年

7 王站立;基于数据库技术的异构信息共享平台的研究[D];大连交通大学;2010年

8 万晶;Web网页正文抽取方法研究[D];南昌大学;2010年



本文编号:2298561

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2298561.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户25a9c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com