一种中文网页自动分类方法的实现及应用
[Abstract]:In order to effectively organize and analyze the mass of Web information, a Chinese web page classifier is implemented by using the guided machine learning method. The classifier is used to realize the directory navigation service of large-scale Chinese web pages on Skynet search engine. The experimental results show that the classifier has high classification quality and meets the requirements of automatic classification of Chinese web pages.
【作者单位】: 北京大学计算机科学技术系 北京大学计算机科学技术系 北京大学计算机科学技术系
【基金】:国家“973”计划重大基础研究项目(G1999032706)
【分类号】:TP393.09
【共引文献】
相关期刊论文 前5条
1 雷鸣,刘建国,王建勇,陈葆珏;一种基于词典的搜索引擎系统动态更新模型[J];计算机研究与发展;2000年10期
2 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期
3 吴光远,何丕廉,曹桂宏,聂颂;基于向量空间模型的词共现研究及其在文本分类中的应用[J];计算机应用;2003年S1期
4 周水庚,关佶红,俞红奇,胡运发;基于Ngram信息的中文文档分类研究[J];中文信息学报;2001年01期
5 郑小慎 ,何丕廉 ,陈治纲 ,任大同 ,吴克敏;基于凝聚点的文本动态聚类分析[J];微型机与应用;2004年08期
相关博士学位论文 前2条
1 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
2 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
相关硕士学位论文 前5条
1 贾自艳;中文智能搜索引擎关键技术研究[D];北京工业大学;2001年
2 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
3 邹加棋;中文网页自动分类关键技术研究[D];福州大学;2006年
4 付裕;文本分类方案选择方法及原型系统开发[D];大连理工大学;2006年
5 陈海波;基于自动分词的企业文档搜索引擎设计与实现[D];西北工业大学;2007年
【相似文献】
相关期刊论文 前10条
1 傅向华;刘国;陈冬剑;;一种核心子集选择训练的大规模中文网页分类方法[J];小型微型计算机系统;2011年08期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相关会议论文 前5条
1 张东娜;彭宏;吴铁峰;;一种基于粗集与贝叶斯分类器的中文网页分类方法[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
2 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
3 周国民;丘耘;郑彦妍;曾枝连;樊景超;;基于SDD算法的特定网页采集技术[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 贾玉祥;昝红英;范明;;基于概率模型的网页相关度研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 樊景超;周国民;周义桃;;基于SDD改进算法的中文农业搜索引擎的研究[A];农业工程科技创新与建设现代农业——2005年中国农业工程学会学术年会论文集第三分册[C];2005年
相关重要报纸文章 前10条
1 刘亭;在线保护你的系统[N];中国电脑教育报;2002年
2 本报记者 边歆;五家值得关注的新兴安全公司[N];网络世界;2009年
3 ;为什么我搜索不到想要的内容[N];中国电脑教育报;2003年
4 本版撰稿 飞猪;你所不知道的Google[N];中国计算机报;2005年
5 湖北 胡锦承;强力搜索软件——中华搜索宝[N];电脑报;2001年
6 狗狗;这些Google的玩法,你知道吗?[N];中国电脑教育报;2005年
7 江苏 曹春华;更改Google的默认搜索语言[N];电脑报;2003年
8 福建 林峰杰;指点迷津[N];电脑报;2004年
9 本报记者 边歆;安全漏洞减少但更容易受攻击[N];网络世界;2008年
10 本报记者 胡英;网站数据中心需解决浪涌和扩展问题[N];计算机世界;2009年
相关硕士学位论文 前10条
1 刘娇;排序学习中的中文网页特征提取方法[D];哈尔滨工业大学;2009年
2 王]];中文网页自动分类的一种实现[D];大连理工大学;2002年
3 孙学刚;面向奥运的中文网页信息获取方法的初步研究[D];清华大学;2004年
4 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
5 郝丽维;中文网页热门主题获取系统的研究与实现[D];河北大学;2009年
6 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
7 刘欣;基于结构信息的中文网页自动分类技术研究[D];南京航空航天大学;2010年
8 谷峰;中文网页层次分类研究[D];华侨大学;2007年
9 任函;大规模中文网页的自动分类研究[D];华中师范大学;2006年
10 万中英;基于投影寻踪中文网页自动分类[D];江西师范大学;2004年
本文编号:2390264
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2390264.html