网页自动分类算法的设计与实现
本文选题:网页自动分类 + 网页内容提取 ; 参考:《南昌大学》2012年硕士论文
【摘要】:在这个信息数字多元化的年代,人们可以通过Internet、企业内部网和电子图书馆等多种渠道获取丰富的包括数据、文字、声音、图像等信息。我们想简单化、快捷化、有效率的获取有用的讯息有一定难度。因此,自动分类尤其是网页自动分类的重要性日趋显著。自动分类可较大程度减少整理文档的时间,较大程度提高采集信息的效率,极大的方便了用户检索信息,也对文档的有效存档和管理起到重要作用。 本文通过探索网页自动分类技术的发展历程和目前的研究现状,了解当前搜索引擎系统的优缺点。通过分析学习系统开发语言Java和开发技术Swing以及TF-IDF算法,试图提出网页自动分类算法新的设计,提出实验方案。经过相关测试,本方法比较符合中文网页自动分类的在大规模分类上的需要,在相关网页的平均分类准确率超过80%。这项研究在应用领域有较大实用价值。
[Abstract]:In this age of digital diversity, people can obtain a wealth of information including data, text, sound, image and so on through Internet, Intranet and electronic library. We want to simplify, quickly, and efficiently access useful information has some difficulty. Therefore, the importance of automatic classification, especially the automatic classification of web pages, is becoming more and more significant. Automatic classification can greatly reduce the time of sorting documents, greatly improve the efficiency of collecting information, greatly facilitate users to retrieve information, but also play an important role in the effective archiving and management of documents. In this paper, the advantages and disadvantages of the current search engine system are discussed by exploring the development history and current research status of the web page automatic classification technology. By analyzing the learning system development language Java, the development technology Swing and the TF-IDF algorithm, this paper attempts to put forward a new design of the web page automatic classification algorithm, and puts forward the experimental scheme. Through the correlation test, the method meets the needs of the Chinese web page automatic classification in large-scale classification, and the average classification accuracy of the related web pages is over 80%. This research has great practical value in application field.
【学位授予单位】:南昌大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.092
【参考文献】
相关期刊论文 前8条
1 王利峰;;动态索引树文本聚类方法中节点阀值的优化[J];电脑开发与应用;2010年09期
2 常凯;;基于TF*IDF垃圾邮件过滤改进算法的研究[J];电脑知识与技术;2010年25期
3 刘露;;浅析TF-IDF在企业组织风险中的研究[J];硅谷;2011年15期
4 林大云;;基于Hadoop的微博信息挖掘[J];计算机光盘软件与应用;2012年01期
5 宋志辉;;一种改进的特征选择方法[J];贵州教育学院学报;2009年06期
6 张玉芳;彭时名;吕佳;;基于文本分类TFIDF方法的改进与应用[J];计算机工程;2006年19期
7 冯长远,普杰信;Web文本特征选择算法的研究[J];计算机应用研究;2005年07期
8 黄师化;张胜;;综合测评自动运算管理系统设计[J];科技咨询导报;2007年25期
相关博士学位论文 前1条
1 王小芳;文本主题域划分与无监督特征提取[D];吉林大学;2009年
相关硕士学位论文 前10条
1 刘虎;进口食品超市POS管理系统[D];华东师范大学;2010年
2 朱丹梅;搜索引擎作弊检测方法研究[D];南京邮电大学;2011年
3 王崤;商品关键属性抽取系统的设计与实现[D];华中科技大学;2011年
4 房冠南;面向对话语料的标签推荐[D];北京邮电大学;2012年
5 冀丽萍;基于质心与本体的文本分类方法[D];吉林大学;2007年
6 赵旭东;互联网舆情指数挖掘方法研究[D];哈尔滨工业大学;2007年
7 高凤雷;基于GPRS网络的智能车载系统应用研究[D];吉林大学;2008年
8 黄黎;基于知识模型推理的Deep Web数据源分类研究[D];苏州大学;2009年
9 黄婵;领域本体的构建及其在Web信息抽取中的应用研究[D];江西理工大学;2010年
10 崔爱国;特征选择方法对英文作文自动评分性能影响的研究[D];苏州大学;2009年
,本文编号:1859882
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1859882.html