一种中文领域网页过滤方法
本文选题:网页过滤 + 网页屏蔽 ; 参考:《北京理工大学学报》2014年05期
【摘要】:鉴于互联网上各种不良网页的影响,提出了一种使用贝叶斯分类算法和领域本体过滤中文网页的方法.该方法根据正反例领域网页计算领域特征词的权重,建立领域特征词库并制作领域本体,根据正例领域网页得到本体元素权重库;使用贝叶斯分类算法得到候选网页;根据领域本体对候选网页进行语义相关度计算并进行网页过滤.该方法可以区分相同领域网页中的正反例网页并可兼顾网页过滤的实时性.通过游戏领域网页的测试,准确率和召回率均在98%以上,语义分析游戏相关网页的平均时间为1~2s,对用户浏览网页速度的影响较小,效果令人满意.
[Abstract]:In view of the influence of various bad web pages on the Internet, a method of filtering Chinese web pages using Bayesian classification algorithm and domain ontology is proposed. This method calculates the weight of domain feature words according to positive and negative domain web pages, establishes domain feature lexicon and makes domain ontology, obtains ontology element weight database according to positive domain web pages, and obtains candidate web pages by Bayesian classification algorithm. According to domain ontology, the semantic relevance of candidate pages is calculated and the web pages are filtered. This method can distinguish the positive and negative web pages in the same domain and can take into account the real time of web page filtering. The test results show that the accuracy rate and recall rate are above 98%. The average time of semantic analysis of game related pages is 1 / 2 s, which has little effect on the speed of browsing web pages, and the results are satisfactory.
【作者单位】: 首都师范大学信息工程学院;
【基金】:国家自然科学基金资助项目(61371194)
【分类号】:TP391.1;TP393.092
【参考文献】
相关期刊论文 前10条
1 许云,樊孝忠,张锋;一种不需分词的中文文本分类方法[J];北京理工大学学报;2005年09期
2 邓擘;樊孝忠;杨立公;;基于统计分布与集合论的文本分类方法[J];北京理工大学学报;2006年07期
3 宋华,戴一奇;一种用于内容过滤和检测的快速多关键词识别算法[J];计算机研究与发展;2004年06期
4 晋耀红;基于语义的文本过滤系统的设计与实现[J];计算机工程与应用;2003年17期
5 李强;李建华;;基于向量空间模型的过滤不良文本方法[J];计算机工程;2006年10期
6 李振星,陆大珏,任继成,唐卫清,唐荣锡;基于潜在语义索引的Web信息预测采集过滤方法[J];计算机辅助设计与图形学学报;2004年01期
7 樊兴华;孙茂松;;一种高性能的两类中文文本分类方法[J];计算机学报;2006年01期
8 袁兴宇;王挺;周会平;肖君;;以本体构造中文信息过滤中的需求模型[J];中文信息学报;2006年03期
9 孙艳;周学广;;基于粗糙集与贝叶斯决策的不良网页过滤研究[J];中文信息学报;2012年01期
10 曾春,邢春晓,周立柱;基于内容过滤的个性化搜索算法[J];软件学报;2003年05期
【共引文献】
相关期刊论文 前10条
1 汪洁;朱军;;基于Linux的中文垃圾邮件过滤系统设计与实现[J];安徽农业大学学报;2011年02期
2 姚克娟,李晋宏;应用Agent技术实现个性化信息服务[J];北方工业大学学报;2004年03期
3 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
4 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
5 李爱明;张帆;;一种基于向量空间模型的信息过滤系统用户建模研究[J];图书与情报;2007年04期
6 赵军;胡栓柱;樊兴华;;一种新的词语相似度计算方法[J];重庆邮电大学学报(自然科学版);2009年04期
7 曾立梅;;基于文本数据挖掘的硕士论文分类技术[J];重庆邮电大学学报(自然科学版);2010年05期
8 杨凤霞;;基于特征选择的垃圾短信过滤研究[J];沧州师范专科学校学报;2011年03期
9 孙铁利;赵隽;杨凤芹;吴迪;;一种基于相对特征的文本分类算法[J];东北师大学报(自然科学版);2010年01期
10 王冬青;;远程教育个性化学习支持服务研究[J];中国远程教育;2008年08期
相关会议论文 前7条
1 马后锋;樊兴华;;一种改进的增量贝叶斯分类算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
2 刘萍;刘燕兵;谭建龙;郭莉;;对多模式串匹配算法性能评测方法的探讨[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
3 袁兴宇;王挺;周会平;肖君;;以本体构造中文信息过滤中的需求模型[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 于静;赵燕平;;基于社会网络分析的BBS内容安全动态监测模型[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 赵纪元;罗霄;;面向中图法的学术文献自动分类研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 刘勘;尹承明;陈凡;;图书借阅信息的分析与挖掘[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
7 袁晓洁;窦志成;刘芳;张路;;一种基于动态用户模型的个性化Web搜索算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
相关博士学位论文 前10条
1 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
2 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
3 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
4 张树壮;面向网络安全的高性能特征匹配技术研究[D];哈尔滨工业大学;2011年
5 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
6 张晓刚;面向软件过程改进的知识管理技术研究[D];中国科学院研究生院(软件研究所);2004年
7 张树人;从社会性软件、Web2.0到复杂适应信息系统研究[D];中国人民大学;2006年
8 潘旭伟;集成情境知识管理中几个关键技术的研究[D];浙江大学;2005年
9 张丙奇;个性化需求的描述、获取与推断—案例研究[D];中国科学院研究生院(计算技术研究所);2005年
10 赵鹏;复杂网络与互联网个性化信息服务的研究[D];中国科学技术大学;2006年
相关硕士学位论文 前10条
1 吴则则;支持动态演进的用户兴趣模型挖掘方法研究[D];山东科技大学;2010年
2 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
3 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
4 孟庆海;基于社会书签的个性化查询词扩展技术研究[D];哈尔滨工程大学;2010年
5 韩兆国;电信计费帐务系统核心模块的设计[D];哈尔滨工程大学;2010年
6 唐微;网络信息提取系统关键技术研究[D];大连理工大学;2009年
7 闫兆法;基于多模态粒子群优化的社会网络分析研究[D];大连理工大学;2010年
8 张囡囡;面向教育硕士培养的个性化教育资源平台的研究[D];辽宁师范大学;2010年
9 姜伦;模糊聚类算法及其在中文文本聚类中的研究与实现[D];哈尔滨理工大学;2010年
10 李哲;工行产品创新采编系统研究与实现[D];长春工业大学;2010年
【二级参考文献】
相关期刊论文 前10条
1 王洪伟,吴家春,蒋馥;基于描述逻辑的本体模型研究[J];系统工程;2003年03期
2 陈晓明,王虹,张仰森;“知网”的知识扩展和推理研究[J];贵州大学学报(自然科学版);2001年02期
3 张卫丰,徐宝文;Web搜索引擎框架研究[J];计算机研究与发展;2000年03期
4 林鸿飞,李业丽,姚天顺;中文文本过滤的信息分流机制[J];计算机研究与发展;2000年04期
5 王永成,沈州,许一震;改进的多模式匹配算法[J];计算机研究与发展;2002年01期
6 晋耀红;基于语义的文本过滤系统的设计与实现[J];计算机工程与应用;2003年17期
7 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
8 冯是聪,张志刚,李晓明;一种中文网页自动分类方法的实现及应用[J];计算机工程;2004年05期
9 胡吉祥;许洪波;刘悦;程学旗;;重复串特征提取算法及其在文本聚类中的应用[J];计算机工程;2007年02期
10 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
相关硕士学位论文 前1条
1 李东艳;互联网信息内容安全过滤方法研究[D];山西大学;2004年
【相似文献】
相关期刊论文 前10条
1 李景,苏晓鹭,钱平;构建领域本体的方法[J];计算机与农业;2003年07期
2 陈坚;何洁月;;RDF可信度扩展在领域本体构建中的应用[J];计算机技术与发展;2006年01期
3 肖敏;;领域本体的构建方法研究[J];情报杂志;2006年02期
4 李衍淼;霍常青;;本体论在企业信息检索中的应用[J];福建电脑;2006年08期
5 杨建学;杨贯中;杨俊柯;;领域本体在学习资源管理系统中的应用[J];科学技术与工程;2006年17期
6 张哲;;基于领域本体的XML模式元素的相似性[J];微电子学与计算机;2007年04期
7 刘燕玲;华庆一;郭晓娟;;基于领域本体面向问题的需求分析与领域建模[J];计算机技术与发展;2007年08期
8 牟冬梅;范轶;;数字图书馆领域本体的构建与推理——以医学领域本体为例[J];图书情报工作;2007年08期
9 李曙光;王俊彪;蒋建军;王百灵;;基于本体理论的企业信息分类编码方法研究[J];计算机应用研究;2007年12期
10 唐晓波;韦贞;徐蕾;;基于本体的信息系统建模方法[J];情报科学;2008年03期
相关会议论文 前10条
1 张晓莹;张桂平;王裴岩;;领域本体构建中关系辅助判断技术研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 叶琼;李绍稳;张友华;刘恺;;农业领域本体知识的云化方法研究[A];中国农业工程学会2011年学术年会论文集[C];2011年
3 李贵;张兆鑫;李征宇;韩子洋;;WEB环境下基于领域本体的语义匹配技术研究[A];科学发展与社会责任(A卷)——第五届沈阳科学学术年会文集[C];2008年
4 程晓;郑德权;杨宇航;邵国军;;面向半结构化文本的领域本体关系抽取[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 许国艳;王志坚;;基于主动服务的领域数据集成研究[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
6 王茹;邢毓华;;古建筑领域本体构建研究[A];首届工程设计高性能计算(HPC)技术应用论坛论文集[C];2007年
7 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 刘新华;刘文剑;;基于领域本体的技术准备信息集成技术研究[A];全国先进制造技术高层论坛暨第七届制造业自动化与信息化技术研讨会论文集[C];2008年
9 谌贻荣;陆勤;李文捷;崔高颖;;一种基于共享后缀术语集改进中文核心领域本体构建的方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 高俊杰;李茹;李双红;;基于领域本体的自动问答系统关键技术研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
相关博士学位论文 前10条
1 欧阳柳波;领域本体覆盖度评价关键技术研究[D];中南大学;2012年
2 董俊;基于KDD的领域本体构建若干关键问题研究[D];南京邮电大学;2011年
3 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
4 田萱;基于上下文的信息检索关键技术研究[D];中国人民大学;2007年
5 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
6 肖敏;基于领域本体的电子商务推荐技术研究[D];武汉理工大学;2009年
7 李丽双;领域本体学习中术语及关系抽取方法的研究[D];大连理工大学;2013年
8 王晓东;基于Ontology知识库系统建模与应用研究[D];华东师范大学;2003年
9 彭鑫;基于本体、特征驱动的产品线开发方法[D];复旦大学;2006年
10 董宝力;Web制造资源的语义发现关键技术研究[D];浙江大学;2007年
相关硕士学位论文 前10条
1 冯艳华;基于语义的构件描述和检索方法的研究[D];西北大学;2005年
2 叶剑;基于领域本体的E-Learning系统研究[D];华中师范大学;2011年
3 袁占花;基于本体论的应急系统知识库建模的研究[D];太原理工大学;2005年
4 李雪瑞;基于语义网的空间信息共享研究[D];中国人民解放军信息工程大学;2005年
5 尹亮;基于本体的信息系统建模理论研究[D];吉林大学;2006年
6 郭成栋;面向e-learning的个性化测试评估建模[D];湖南大学;2006年
7 杨小佳;基于本体的公共交通领域智能信息检索研究[D];大连海事大学;2007年
8 郭嘉琦;领域本体的构建及其在信息检索中的应用研究[D];北京邮电大学;2007年
9 孙倩;基于叙词表的领域本体建模方法研究[D];山东大学;2007年
10 张囡囡;面向语义网的领域本体半自动构建方法的研究[D];大连海事大学;2008年
,本文编号:1778687
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1778687.html