基于领域本体的新闻搜索引擎的研究与实现
本文关键词:基于Rough本体的手机领域语义搜索引擎的研究与实现,由笔耕文化传播整理发布。
《南昌大学》 2012年
基于领域本体的新闻搜索引擎的研究与实现
曾小芹
【摘要】:随着网络的大规模覆盖,浏览网络新闻已成为大家了解社会动态的一个重要渠道,新闻搜索引擎不可或缺。然而,虽然网络如一本无所不包的百科全书,由于当前搜索引擎技术仍处在革新阶段,致使信息检索结果还不尽如人意。 由此,本文将本体、信息检索等技术相结合,使搜索引擎能够朝着智能化方向发展,进而改善当前搜索引擎性能。本文的主要研究工作如下: 一、提出了基于领域本体的新闻网页分类算法。为了改进当前分类算法只考虑内容相似度的普遍性不足,本文提出了兼顾内容相似度与结构相关度的语义分类思想:首先.解析本体得到本体类别向量,抽取新闻网页文本关键词并进行语义降维,此时找出网页文本中存在的与本体类别向量相同的词汇构成文本期望向量,再运用向量余弦定理计算两者的内容相似度。其次,将上述共同词汇映射到本体层次结构图上,通过计算该有向无环图的加权路径得到结构相关度。最后,结合内容相似度与结构相关度计算新闻网页与本体的综合关联度,通过判断结果与阈值的大小关系来决定新闻网页的类别。 二、提出了加权修正信息增益的ωID3算法。针对ID3算法偏向选择取值较多属性作为分裂节点的缺陷,coID3算法的改进思路是:找出信息增益及取值个数都达到阈值的属性,并同时考虑条件属性与决策属性的相关性,加权修正上述属性的信息增益值,再依据修正值选择分裂节点。实例对比说明本算法构造的决策树在一定程度上有所改善。 三、设计了基于领域本体的新闻搜索引擎MONSE原型系统,并在Heritrix、 Lucene、Eclipse、Tomcat等开源工具的支撑下通过实例验证。
【关键词】:
【学位授予单位】:南昌大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 王晖;陈丽;陈垦;薛漫清;梁庆;;多指标综合评价方法及权重系数的选择[J];广东药学院学报;2007年05期
3 姜奇平;意义互联网与本体论[J];互联网周刊;2004年32期
4 叶明全;伍长荣;;决策表分解及其最小属性约简研究[J];计算机工程与应用;2009年30期
5 史斌;闫健卓;王普;方丽英;;基于本体的概念语义相似度度量[J];计算机工程;2009年19期
6 黄爱辉;陈湘涛;;决策树ID3算法的改进[J];计算机工程与科学;2009年06期
7 杨喜权;孙娜;张野;孔德冉;;DocOnto——一种基于本体的文本分类器[J];计算机应用;2008年S2期
8 黄名选;严小卫;张师超;;查询扩展技术进展与展望[J];计算机应用与软件;2007年11期
9 姜华;;一种基于本体的概念语义相似度计算研究[J];计算机应用与软件;2009年07期
10 兰美辉;夏幼明;;基于本体的概念相似度计算模型研究[J];曲靖师范学院学报;2010年03期
中国博士学位论文全文数据库 前2条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
2 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
中国硕士学位论文全文数据库 前9条
1 牛为秋;基于粗糙集的决策树分类算法[D];西安电子科技大学;2010年
2 戚学磊;基于Lucene的站内搜索引擎技术的研究与应用[D];太原理工大学;2011年
3 邓丹君;基于Lucene的垂直搜索引擎关键技术研究[D];武汉理工大学;2011年
4 吴琴霞;基于语义Web的知识表示及应用研究[D];郑州大学;2007年
5 谢娟娜;本体技术在知识管理系统中的应用研究[D];南京航空航天大学;2007年
6 邹文科;基于本体技术的语义检索及其语义相似度研究[D];北京邮电大学;2008年
7 邵晓宇;基于本体的大型数据资源智能检索研究[D];合肥工业大学;2008年
8 李志露;基于Rough本体的手机领域语义搜索引擎的研究与实现[D];南昌大学;2008年
9 王世清;本体构建中建立概念间关系方法研究[D];中国农业科学院;2010年
【共引文献】
中国期刊全文数据库 前10条
1 梁峰;金莹;;基于Agent技术的语义网服务模型[J];安徽广播电视大学学报;2008年01期
2 高炜;梁立;;基于概念匹配的本体映射算法[J];安徽大学学报(自然科学版);2010年06期
3 陶皖,李平,廖述梅;当前基于本体的语义标注工具的分析[J];安徽工程科技学院学报(自然科学版);2005年02期
4 赵秀芳;;基于本体的农业信息检索[J];安徽农业科学;2006年10期
5 蔡曈;徐惠;吴群;;土壤质量聚类分析——以封丘县为例[J];安徽农业科学;2008年25期
6 薛荟;谭三清;;林业应用系统本体知识模型的构建方法研究[J];现代农业科技;2011年07期
7 尤晓婧;林逢春;;GE公司EHS绩效变化趋势与内部机制探讨[J];环境科学与管理;2011年03期
8 李善飞;鲁延京;杨克巍;谭跃进;;武器装备体系能力形式化描述研究[J];兵工自动化;2010年02期
9 黄洪;刘增良;余达太;周绍华;;一种具有免疫特征的智能数据分类分级模型[J];兵工学报;2010年12期
10 黄洪;刘增良;余达太;;一种智能化的数据分类、分级及保护模型[J];北京工业大学学报;2011年06期
中国重要会议论文全文数据库 前10条
1 张薇;赵林;段铁铮;;灰色数量化组合模型用于无障碍服务水平评价[A];科技创新 绿色交通——第十一次全国城市道路交通学术会议论文集[C];2011年
2 李贵;张兆鑫;李征宇;韩子洋;;WEB环境下基于领域本体的语义匹配技术研究[A];科学发展与社会责任(A卷)——第五届沈阳科学学术年会文集[C];2008年
3 李伟刚;张克亮;王慧兰;;基于航空领域本体知识库的语义检索研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 王建州;李廉;汪映海;;面向Ontology的电力信息系统的研究[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
5 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
6 郑笈;李思昆;陆筱霞;;大规模场景绘制的存储数据调度组织研究[A];节能环保 和谐发展——2007中国科协年会论文集(一)[C];2007年
7 杨昆;王军;彭双云;;基于Ontology的空间信息互操作初步研究[A];中国地理信息系统协会第八届年会论文集[C];2004年
8 范志煜;肖兵;沈薇薇;;基于概率本体的态势估计应用研究[A];中国自动化学会中南六省(区)2010年第28届年会·论文集[C];2010年
9 王建伟;马暕;刘琴;苗继承;;高速公路收费站服务质量评价体系研究[A];中国高速公路管理学术论文集(2009卷)[C];2009年
10 贾凌燕;陆一平;;浅谈ontology方法及其发展[A];全国先进制造技术高层论坛暨制造业自动化、信息化技术研讨会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 卜志国;海洋生态环境监测系统数据集成与应用研究[D];中国海洋大学;2010年
2 熊晶;海洋生态本体的建模方法研究及应用[D];中国海洋大学;2010年
3 张俐;面向概念设计方案选择的协同决策方法研究[D];华中科技大学;2010年
4 韩赟;高技术虚拟企业(HTVE)知识管理模式研究[D];哈尔滨理工大学;2009年
5 王亚萍;需求驱动的个性化产品配置设计方法研究[D];哈尔滨理工大学;2010年
6 宋岩;基于多Agent和本体的散杂货港口集团船舶调度系统研究[D];北京交通大学;2011年
7 游颖;客车信息集成控制系统配置设计中的分解技术研究[D];武汉理工大学;2010年
8 连莉;本体中非分类关系的理论体系研究[D];山东大学;2010年
9 魏巍;定制产品智能重组设计关键技术与方法研究及其应用[D];浙江大学;2010年
10 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
中国硕士学位论文全文数据库 前10条
1 厉颖;基于本体的服装领域知识表示的建模研究[D];山东科技大学;2010年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 吕媛媛;基于本体的物流信息集成系统的研究[D];山东科技大学;2010年
4 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
5 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
6 许坤;基于本体的应急信息管理系统的研究与设计[D];郑州大学;2010年
7 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年
8 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
9 刘海娇;基于魔力平台的需求分析系统的研究与实现[D];哈尔滨工程大学;2010年
10 孟庆海;基于社会书签的个性化查询词扩展技术研究[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 周宏宇;张政;;中文分词技术综述[J];安阳师范学院学报;2010年02期
2 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
3 李源,何清,史忠植;基于概念语义空间的联想检索[J];北京科技大学学报;2001年06期
4 王建芬,曹元大;支持向量机在大类别数分类中的应用[J];北京理工大学学报;2001年02期
5 廖乐健,幺敬国,曹元大,李守丽;一个语义Web系统的设计与实现[J];北京理工大学学报;2004年02期
6 黄卿贤,胡谷雨;基于本体的网络管理知识模型[J];北京邮电大学学报;2003年S2期
7 白同强,刘磊;语义Web的研究与展望[J];吉林大学学报(信息科学版);2004年02期
8 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
9 曹志松,曹文君;基于语义Web实现有效Web信息检索的研究[J];复旦学报(自然科学版);2004年03期
10 苏意玲;;基于机器学习的本体匹配的研究[J];福建电脑;2009年08期
中国博士学位论文全文数据库 前2条
1 张毅波;中文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
2 杜文华;本体的构建及其在数字图书馆中的应用研究[D];武汉大学;2005年
中国硕士学位论文全文数据库 前10条
1 谭义红;关联规则挖掘及其在概念检索中的应用研究[D];湖南大学;2003年
2 王国琴;基于语义检索的概念空间研究[D];南京理工大学;2004年
3 罗建利;基于用户兴趣的概念查询扩展研究[D];扬州大学;2005年
4 叶凌;基于语义的中文搜索引擎[D];吉林大学;2005年
5 覃华兵;知识组织工具—本体研究[D];武汉大学;2005年
6 陈建;领域本体的创建和应用研究[D];对外经济贸易大学;2006年
7 黄日茂;语义Web知识表示方法的研究[D];贵州大学;2006年
8 彭时名;中文文本分类中特征提取算法研究[D];重庆大学;2006年
9 李玲;面向流程诊断的企业知识相似度匹配工具研究与开发[D];哈尔滨工业大学;2006年
10 吴卓斌;基于LUCENE全文搜索引擎关键技术的研究[D];暨南大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[J];情报学报;2010年01期
2 李景,苏晓鹭,钱平;构建领域本体的方法[J];计算机与农业;2003年07期
3 肖敏;;领域本体的构建方法研究[J];情报杂志;2006年02期
4 马文峰;杜小勇;;知识网格研究[J];图书情报工作;2007年10期
5 许勇;王智学;李宗勇;;领域本体的一致性检查[J];计算机工程;2009年01期
6 宋佳;王盼卿;齐剑锋;李晓辉;;装备领域本体的构建方法研究[J];微计算机信息;2009年15期
7 张付志;李伟静;朱彩云;;基于领域本体的跨系统个性化服务用户模型[J];计算机工程;2009年13期
8 陈坚;何洁月;;RDF可信度扩展在领域本体构建中的应用[J];计算机技术与发展;2006年01期
9 李衍淼;霍常青;;本体论在企业信息检索中的应用[J];福建电脑;2006年08期
10 徐忠华;程方玉;王强;周传宏;;基于领域本体的PDM系统工程更改管理模型[J];机电工程;2006年12期
中国重要会议论文全文数据库 前10条
1 冯瑾;;初始领域本体获取研究——以国际共运领域为例[A];中国图书馆学会专业图书馆分会2009年学术年会论文集[C];2009年
2 张晓莹;张桂平;王裴岩;;领域本体构建中关系辅助判断技术研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 叶琼;李绍稳;张友华;刘恺;;农业领域本体知识的云化方法研究[A];中国农业工程学会2011年学术年会论文集[C];2011年
4 李贵;张兆鑫;李征宇;韩子洋;;WEB环境下基于领域本体的语义匹配技术研究[A];科学发展与社会责任(A卷)——第五届沈阳科学学术年会文集[C];2008年
5 张士靖;胡兆芹;;医学领域本体的构建实践[A];中华医学会第十二次全国医学信息学术会议论文汇编[C];2006年
6 刘新华;刘文剑;;基于领域本体的技术准备信息集成技术研究[A];全国先进制造技术高层论坛暨第七届制造业自动化与信息化技术研讨会论文集[C];2008年
7 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 李甜甜;;基于本体论的供应链知识管理[A];经济发展与管理创新--全国经济管理院校工业技术学研究会第十届学术年会论文集[C];2010年
9 王茹;邢毓华;;古建筑领域本体构建研究[A];首届工程设计高性能计算(HPC)技术应用论坛论文集[C];2007年
10 程晓;郑德权;杨宇航;邵国军;;面向半结构化文本的领域本体关系抽取[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国重要报纸全文数据库 前10条
1 本报记者 刘书艳 见习记者 李仁平;[N];中华工商时报;2011年
2 方云;[N];中国企业报;2003年
3 本报记者 韩亚玲;[N];人民日报海外版;2003年
4 记者 孙进;[N];第一财经日报;2010年
5 张文;[N];通信产业报;2006年
6 朱艳燕;[N];中华工商时报;2004年
7 本报记者 薛建新;[N];财经时报;2003年
8 本报记者 张彤;[N];网络世界;2003年
9 徐娅萍;[N];民营经济报;2006年
10 罗鼎;[N];通信产业报;2006年
中国博士学位论文全文数据库 前10条
1 赵娜;基于知识地图的多领域本体语义互联研究[D];吉林大学;2011年
2 董俊;基于KDD的领域本体构建若干关键问题研究[D];南京邮电大学;2011年
3 谷建军;基于叙词表的中医古籍文献领域本体建模方法研究[D];中国中医科学院;2006年
4 徐振宁;基于本体的Web数据语义信息的表示与处理方法研究[D];中国人民解放军国防科学技术大学;2002年
5 于娟;基于文本的领域本体学习方法及其应用研究[D];大连理工大学;2010年
6 肖敏;基于领域本体的电子商务推荐技术研究[D];武汉理工大学;2009年
7 李景;领域本体的构建方法与应用研究[D];中国农业科学院;2009年
8 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
9 郭永洪;基于本体的鱼病知识获取与诊断推理集成系统研究[D];中国农业大学;2004年
10 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 曾小芹;基于领域本体的新闻搜索引擎的研究与实现[D];南昌大学;2012年
2 牟冬梅;本体在医学数字信息资源知识组织中的应用研究[D];吉林大学;2005年
3 史军强;WEB信息集成技术研究[D];电子科技大学;2005年
4 叶剑;基于领域本体的E-Learning系统研究[D];华中师范大学;2011年
5 付佳佳;基于叙词表的领域本体建模研究[D];华东师范大学;2006年
6 许琳;基于本体的个性化信息服务用户模型构建研究[D];吉林大学;2008年
7 王麒;基于领域本体的Web文档自动摘要关键技术研究与实现[D];华东师范大学;2007年
8 乔卫;基于领域本体的XML语义信息抽取的研究与实现[D];武汉理工大学;2009年
9 赵赟;基于本体的问答查询系统关键技术的研究与实现[D];东南大学;2004年
10 冯艳华;基于语义的构件描述和检索方法的研究[D];西北大学;2005年
本文关键词:基于Rough本体的手机领域语义搜索引擎的研究与实现,由笔耕文化传播整理发布。
,本文编号:183227
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/183227.html