网络信息采集及智能处理技术研究
本文选题:网络信息采集 + KNN算法 ; 参考:《广东工业大学》2012年硕士论文
【摘要】:无论是科研还是学习人们都需要通过网络去寻找最新的专业信息和新闻动态,但信息的爆炸式增长,也让人们越来越难以从信息海洋中快速获取所需信息。一方面是因为网络信息量与日俱增,且更新速度非常快,需要投入大量的时间进行信息的搜索;另一方面,网络上的信息存在大量重复的现象,且格式非常不规范,更加大了用户搜寻信息的难度。因此,对网络信息进行快速采集和智能处理的技术应运而生。 用户可以通过搜索引擎检索出大量信息,却不能对信息进行提取、组织和处理,随着信息化的进步,人们对获取信息的要求越来越高,信息搜索也从“通用”进入“个性和智能”。目前市面上已经出现了很多信息采集的工具,这些工具可以在一定程度上满足用户获取信息的需求,但是对信息的处理却不尽人意。由于文本信息占据网络中信息的大部分,因此如何自动地分类网络中的文本信息成为信息处理的重中之重。 本论文在分析现有信息采集和信息处理技术的基础上,首先对网页抓取工具网络爬虫进行介绍,分析其采集网页信息的原理及网页去重和信息抽取的方法;然后对智能信息处理中的文本分类这一关键技术进行了深入研究,改进了现有的特征选择方法和分类算法,并采用改进的KNN算法构造了一个文本自动分类器,将搜狗语料库作分类模型的训练语料库,通过实验训练出适应于该语料库的最佳K值和特征维数,同时验证了改进的KNN算法的分类效果。 本论文的创新之处是: (1)对文本信息处理中的特征选择方法进行了改进,提出了同义词合并的思想,引入《同义词词林》,在特征选择之前先对特征项中的同义词进行替换、统计,有效降低了特征空间的维数。 (2)提出了一种改进的KNN算法,通过引入类中心向量对相似度计算公式进行了改进,将待分类的测试文本与类别的距离作为参数加入到KNN算法的相似度计算公式中,把两个文本中都出现的特征项数量与各自出现的特征项数量的最大值的比值作为相似度公式的调节因子。 (3)结合改进的KNN算法,构造一个文本自动分类器,在分类阶段优先考虑待分类的测试文本与各类别之间的联系,当待分类文本与类别之间的关系不明确时,再将其与所有训练文本比较,根据比较的结果判定待分类文本所属的类别。
[Abstract]:People need to find the latest professional information and news through the Internet, but the explosion of information makes it more and more difficult for people to get the information quickly from the ocean of information.On the one hand, because the amount of information on the network is increasing, and the speed of updating is very fast, it needs a lot of time to search for information; on the other hand, there is a large number of duplicates of information on the network, and the format is very irregular.It also increases the difficulty of searching for information.Therefore, the rapid collection and intelligent processing of network information emerged as the times require.Users can retrieve a great deal of information through search engine, but they can't extract, organize and process information. With the development of information, people are demanding more and more information.Information search has also moved from "universal" to "personality and intelligence."At present, there are many information collection tools in the market, which can meet the needs of users to some extent, but the processing of information is not satisfactory.Because the text information occupies the majority of the information in the network, how to automatically classify the text information in the network becomes the top priority of information processing.Based on the analysis of the existing information collection and information processing technology, this paper first introduces the web crawler, analyzes the principle of web page information collection and the methods of web page removal and information extraction.Then, the paper deeply studies the key technology of text classification in intelligent information processing, improves the existing feature selection methods and classification algorithms, and constructs a text automatic classifier using the improved KNN algorithm.Using Sogou corpus as the training corpus of classification model, the best K value and feature dimension suitable for the corpus are trained through experiments, and the classification effect of the improved KNN algorithm is verified at the same time.The innovations of this thesis are:1) the method of feature selection in text information processing is improved, the idea of synonym merging is put forward, and the synonym forest is introduced to replace the synonym in the feature item before feature selection.The dimension of feature space is reduced effectively.(2) an improved KNN algorithm is proposed. By introducing the class center vector, the similarity calculation formula is improved, and the distance between the test text and the category to be classified is added to the similarity calculation formula of the KNN algorithm.The ratio of the number of feature items in both texts to the maximum value of the number of feature items in each text is taken as the adjustment factor of the similarity formula.In combination with the improved KNN algorithm, an automatic text classifier is constructed, which gives priority to the relationship between the test text to be classified and each category in the classification stage, when the relationship between the text to be classified and the category is not clear.Then compare it with all the training texts, and determine the category of the text to be classified according to the comparison results.
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1;TP274.2
【相似文献】
相关期刊论文 前10条
1 郑海,林鸿飞;基于段落匹配的文本分类机制[J];计算机工程与应用;2004年28期
2 王丁,运海红,张辉;文本自动分类系统的研究与实现[J];信息技术;2005年03期
3 杜志文;曾文华;;网格计算在文本分类中的应用[J];微电子学与计算机;2006年S1期
4 崔彩霞;王素格;;基于粗集的支持向量机文本分类方法研究[J];科技广场;2006年08期
5 马忠宝;刘冠蓉;;基于支持向量机的中文文本分类模型研究[J];计算机技术与发展;2006年11期
6 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期
7 祝晓鲁;白振兴;贾海燕;;自动文本分类技术研究[J];现代电子技术;2007年03期
8 张桂芸;刘洋;王元元;;基于模糊认知图的文本分类推理算法[J];计算机工程与应用;2007年12期
9 陈莲娜;姚伏天;;用于文本分类的多核SVM算法研究[J];计算机工程;2007年09期
10 王倩倩;段震;张燕平;;基于交叉覆盖算法的文本分类[J];计算机技术与发展;2007年06期
相关会议论文 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
相关重要报纸文章 前10条
1 ;智能处理各种信息[N];中国计算机报;2004年
2 上海 土兔;智能处理大批量扫描照片[N];中国电脑教育报;2004年
3 ;智能处理海量信息[N];中国计算机报;2004年
4 新疆 张迎新;让Excel与IE携手(三)[N];电脑报;2002年
5 吕晓丽;智能信息挖掘平台上线[N];科技日报;2007年
6 赵力 记者 张哲浩;看看多少年后自己是什么模样[N];科技日报;2005年
7 ;辽宁移动引入智能信息挖掘平台[N];人民邮电;2007年
8 刘玉峰;炼珍堂“烹调”知识大餐[N];中国现代企业报;2007年
9 记者 秦志勇;5年后物联网产业产值将超过1万亿元[N];人民政协报;2010年
10 本报记者 吴磊;物联网关键技术亟待突破[N];通信产业报;2009年
相关博士学位论文 前10条
1 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
2 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
3 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
4 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
5 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
6 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
7 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
8 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
9 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
10 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
相关硕士学位论文 前10条
1 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
2 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
3 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
4 闫晨;KNN文本分类研究[D];燕山大学;2010年
5 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
6 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
7 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
8 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
9 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
10 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
,本文编号:1739509
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1739509.html