大规模异构环境下的文本分类算法研究及应用
[Abstract]:The computer application which takes the network as the important component has entered an unprecedented prosperous era, various new application environments, the application demand appears one after another, in some large-scale applications such as the search engine, the social network and so on, The data is growing at a very high rate every day. How to process these data quickly and obtain the application value in the effective time is a problem that the industry is trying to solve. At the same time, most of the data exists in heterogeneous form, which makes the process of using it more challenging. As an important technology, text classification is also very important in large-scale data environment. It enables us to quickly obtain the categories of unknown documents, which is very useful for the processing of information. The traditional classification algorithm has many advantages, but the speed is limited, which is not suitable for some high data traffic environment. As to how to solve these problems, the author has made the following attempts: 1) based on some excellent ideas in traditional classification field, a fast text classification algorithm based on word computing is proposed; 2) in order to capture web pages quickly, a simple and extensible distributed web crawler is designed. 3) how to integrate heterogeneous data with XML technology is studied. In the process of web pages, an algorithm is designed to extract the text of web pages quickly by using the DOM structure of web pages. 4) A running universal retrieval system is implemented, which integrates the function of classified retrieval, which is convenient for users to further filter and refine the search results and improve the retrieval quality.
【学位授予单位】:河北科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1
【参考文献】
相关期刊论文 前10条
1 于洪波;;中文分词技术研究[J];东莞理工学院学报;2010年05期
2 王伟;许云峰;高凯;;基于哈希表的动态向量降维方法的研究及应用[J];河北科技大学学报;2011年04期
3 郝伟;杨国霞;郝志杰;;专业搜索引擎搜索结果融合算法研究[J];河北科技大学学报;2011年04期
4 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
5 周源远,王继成,郑刚,张福炎;Web页面清洗技术的研究与实现[J];计算机工程;2002年09期
6 李红莲,王春花,袁保宗;一种改进的支持向量机NN-SVM[J];计算机学报;2003年08期
7 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
8 邱莎;段玻;申浩如;丁海燕;;基于条件随机场的中文人名识别研究[J];昆明学院学报;2011年06期
9 梁强;吴柳燕;聂伟;;基于SVM和概率统计的文本分类方法研究[J];柳州职业技术学院学报;2010年02期
10 黄科,马少平;基于统计分词的中文网页分类[J];中文信息学报;2002年06期
相关博士学位论文 前3条
1 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
2 裴志利;数据挖掘技术在文本分类和生物信息学中的应用[D];吉林大学;2008年
3 秦玉平;基于支持向量机的文本分类算法研究[D];大连理工大学;2008年
相关硕士学位论文 前8条
1 柯青;网络环境下异构信息检索标准体系研究[D];武汉大学;2004年
2 李珍辉;基于Web services的异构信息系统安全互操作研究[D];湘潭大学;2007年
3 杨林波;快速文本分类研究[D];江南大学;2008年
4 冯小琴;基于技术接受模型的信息检索可视化研究[D];华中师范大学;2009年
5 浦晓斌;专利异构信息资源互操作的研究与实现[D];南京理工大学;2009年
6 黄启虎;基于仿生模式识别的文本分类技术研究[D];哈尔滨工业大学;2008年
7 王站立;基于数据库技术的异构信息共享平台的研究[D];大连交通大学;2010年
8 万晶;Web网页正文抽取方法研究[D];南昌大学;2010年
本文编号:2298561
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2298561.html