中文网页自动分类新算法
本文选题:文本分类 + 搜索引擎 ; 参考:《清华大学学报(自然科学版)》2000年01期
【摘要】:为了有效地组织因特网上极其丰富的信息资源 ,通过分析中文和中文网页的特点 ,提出了一种新的中文网页的自动分类算法。这种算法主要利用字间的相关信息、词频以及页面的标记信息等 ,提取网页特征 ,并计算可调的词频加权参数 ,然后通过本类和非本类训练 ,建立专家数据库。实验表明 ,该算法可以获得 80 %以上的网页分类准确率
[Abstract]:In order to effectively organize the abundant information resources on the Internet, a new automatic classification algorithm for Chinese web pages is proposed by analyzing the characteristics of Chinese and Chinese web pages. In this algorithm, the relevant information between words, word frequency and page tagging information are used to extract the features of web pages, and calculate the adjustable weighted parameters of word frequency. Then, the expert database is established through training of this class and non-class. Experiments show that the algorithm can achieve more than 80% of the accuracy of web page classification.
【作者单位】: 清华大学电子工程系!北京100084 清华大学电子工程系!北京100084 清华大学电子工程系!北京100084
【基金】:国家自然科学基金项目!(6 96 2 5 1 0 3)
【分类号】:TP393
【相似文献】
相关期刊论文 前10条
1 柯丽;王明文;何世柱;黎佳;罗远胜;;基于频率共现熵的跨语言网页自动分类研究[J];江西师范大学学报(自然科学版);2011年03期
2 骆万文;高飞;周学广;;抗中文主动干扰关键词过滤研究综述[J];吉首大学学报(自然科学版);2011年03期
3 李俊华;;基于Web文本挖掘的高校教师个人主页系统研究与开发[J];大理学院学报;2011年04期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相关会议论文 前10条
1 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
2 王岩;;基于内容的垃圾邮件过滤技术[A];中国通信学会第六届学术年会论文集(中)[C];2009年
3 潘文锋;王斌;谭松波;;贝叶斯垃圾邮件过滤研究[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
4 潘文锋;王斌;于满泉;谭松波;;Winnow算法在垃圾邮件过滤中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
5 刘晓勇;;基于GA与SVM融合的网页分类算法[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
6 江涛;于洪志;徐涛;;互联网藏文内容安全检测过滤系统研究[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
7 刘子豪;庄毅;;一种电子邮件敏感信息检测算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
8 郎加云;胡学钢;;电子邮件内容过滤的相关特征研究[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
9 张海雷;王会珍;王安慧;朱靖波;;基于朴素贝叶斯模型的垃圾邮件过滤技术比较分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
10 李军;何晓宁;黄成哲;齐浩亮;雷国华;;基于特征贡献度的垃圾邮件过滤方法[A];第六届全国信息检索学术会议论文集[C];2010年
相关重要报纸文章 前1条
1 应晓敏 窦文华;技术架构[N];计算机世界;2003年
相关博士学位论文 前9条
1 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
2 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
3 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
4 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
5 万国根;面向内容的网络安全监控模型及其关键技术研究[D];电子科技大学;2005年
6 谭建龙;串匹配算法及其在网络内容分析中的应用[D];中国科学院研究生院(计算技术研究所);2003年
7 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
8 陈彬;垃圾邮件的特征选择及检测方法研究[D];华南理工大学;2010年
9 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
相关硕士学位论文 前10条
1 杨昂;文本分类算法研究[D];湖南大学;2002年
2 袁野;基于Vague集的网络舆情研究[D];西安电子科技大学;2010年
3 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年
4 杨盛;电子邮件过滤系统的研究与设计[D];中南大学;2005年
5 杨丽华;基于内容的垃圾邮件过滤技术研究[D];西南交通大学;2006年
6 曾志中;基于贝叶斯算法的垃圾邮件过滤系统的分析与实现[D];北京邮电大学;2009年
7 张汇;基于贝叶斯的网页文本分类算法[D];华中科技大学;2004年
8 刘建波;基于Agent的用户兴趣模型的研究[D];沈阳工业大学;2005年
9 朱军;中文垃圾邮件过滤技术研究及应用[D];合肥工业大学;2005年
10 朱志宁;基于Web的企业竞争情报智能搜集平台中页面分析存储的研究[D];昆明理工大学;2006年
,本文编号:1963538
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1963538.html