质检舆情监控系统中信息检索的研究
本文关键词:结合本体筛选和文本挖掘的垂直搜索引擎研究,由笔耕文化传播整理发布。
《北京邮电大学》 2011年
质检舆情监控系统中信息检索的研究
李琚彪
【摘要】:本文分析了对产品质量、食品安全方面的质检舆情监控的意义和必要性,介绍了垂直搜索、信息抽取、中文分词、文本相似度、文本聚类、信息检索等方面的技术现状。研究了信息检索系统中的信息检索优化处理、信息检索接口的设计与实现。论文完成的主要工作如下: (1)完成了系统的总体架构设计以及网页去重、聚类优化、信息检索以及统计报表等功能模块的设计,完成了相关数据库的设计。 (2)通过引入词语共现,改进了文本相似度的算法,实现了文本相似度的计算,并将其应用到了信息检索的优化处理中。 (3)将重复网页分为完全重复网页和部分重复网页,并采用不同的算法进行判断,实现了信息检索中的网页去重功能。针对完全重复网页采用运行速度快的MD5校验码进行判重,而针对部分重复网页采用倒排索引计算相似度的方法实现了判重。 (4)通过对基本的k-means算法进行改进,实现了文本聚类。通过聚类结果对信息检索结果进行了优化。实现了信息检索系统的用户接口,包括检索接口和统计报表接口,可向用户高效、直观地展示检索结果。 本文通过计算文本相似度、网页去重和聚类优化实现了对信息检索的优化处理,然后通过检索接口和统计报表接口将结果呈现给用户,可以及时向用户提供质检舆情监控系统所采集到的相关内容,有助于政府相关部门对产品质量、食品安全方面的信息进行监督管理。
【关键词】:
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.09
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前10条
1 金益;;基于“网络蜘蛛原理”的搜索引擎技术剖析[J];电脑学习;2007年05期
2 骆庆;;中文搜索引擎中的网络蜘蛛[J];福建电脑;2006年12期
3 张丽娟;李舟军;;分类方法的新发展:研究综述[J];计算机科学;2006年10期
4 赫建营;晏海华;金茂忠;刘超;;结合本体筛选和文本挖掘的垂直搜索引擎研究[J];计算机科学;2008年02期
5 罗可,林睦纲,郗东妹;数据挖掘中分类算法综述[J];计算机工程;2005年01期
6 王利;刘宗田;王燕华;廖涛;;基于内容相似度的网页正文提取[J];计算机工程;2010年06期
7 曹恬;周丽;张国煊;;一种基于词共现的文本相似度计算[J];计算机工程与科学;2007年03期
8 郭庆琳;李艳梅;唐琦;;基于VSM的文本相似度计算的研究[J];计算机应用研究;2008年11期
9 孙西全;马瑞芳;李燕灵;;基于Lucene的信息检索的研究与应用[J];情报理论与实践;2006年01期
10 熊回香;夏立新;;自然语言处理技术在中文全文检索中的应用[J];情报理论与实践;2008年03期
【共引文献】
中国期刊全文数据库 前10条
1 罗长寿;张峻峰;孙素芬;魏清凤;;基于改进VSM的农业实用技术自动问答系统研究[J];安徽农业科学;2009年28期
2 孙喜来;王欣;葛昂;郑家民;邓宏斌;;面向相似度的多维异构数据比对模型研究[J];信息安全与技术;2011年09期
3 蒋洛丹;;网络舆情与引导机制探究[J];今传媒;2012年05期
4 王雅蕾;方付建;;舆情热点事件的热源研究——基于人民网“舆情排行榜”的分析[J];北京理工大学学报(社会科学版);2011年04期
5 周文刚;金鑫;;基于树扩展朴素贝叶斯的高效网络入侵检测系统[J];北京师范大学学报(自然科学版);2007年01期
6 施敏锋;;网络语境下高校突发事件的舆情传播及其制度干预[J];长春理工大学学报(社会科学版);2012年01期
7 张兢;候旭东;吕和胜;;基于朴素贝叶斯和支持向量机的短信智能分析系统设计[J];重庆理工大学学报(自然科学版);2010年01期
8 吴玲;;高校网络舆情与大学生人生价值观的教育[J];巢湖学院学报;2011年04期
9 李玲俐;;数据挖掘中分类算法综述[J];重庆师范大学学报(自然科学版);2011年04期
10 徐朝军;;基于主题搜索的通用教学资源共享平台设计[J];中国远程教育;2010年03期
中国重要会议论文全文数据库 前5条
1 吴琳;;网络政治学视域下虚拟社会管理实践机制探索[A];中国行政管理学会2011年年会暨“加强行政管理研究,推动政府体制改革”研讨会论文集[C];2011年
2 田鹤楠;杜军平;;产品质量食品安全互联网舆情监控系统设计[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
3 梁勇;张文;;网络舆情采集系统的设计[A];2011年全国通信安全学术会议论文集[C];2011年
4 王春厚;许都;孙健;;一种降低误判率的BF快速匹配算法结构[A];2010年全国通信安全学术会议论文集[C];2010年
5 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 方付建;突发事件网络舆情演变研究[D];华中科技大学;2011年
3 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年
4 周涛;网络舆论环境下的高校思想政治教育研究[D];西南财经大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 李宏;面向应用领域的分类方法研究[D];中南大学;2007年
7 汪素南;智能技术在金融市场溢出效应和反洗钱中的应用研究[D];浙江大学;2007年
8 姚山;基于数据挖掘技术的造林决策研究[D];北京林业大学;2008年
9 伍平阳;基于数据挖掘技术的医疗设备绩效预测方法的应用研究[D];南方医科大学;2008年
10 张梅凤;人工鱼群智能优化算法的改进及应用研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 秦璐;网络舆情引导方法研究[D];广西师范学院;2010年
2 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年
3 李红;数据挖掘中特征选择与聚类算法研究[D];大连理工大学;2010年
4 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
5 周翔;决策支持技术在企业销售系统中的应用研究[D];中国海洋大学;2010年
6 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
7 王冉冉;基于协同过滤的主动推荐系统关键技术研究[D];昆明理工大学;2008年
8 程代娣;决策树在高职院校毕业生就业工作中应用研究[D];安徽大学;2010年
9 戴霖;网络舆情信息挖掘关键技术研究与应用[D];浙江工商大学;2011年
10 许世明;中文网页分类技术研究及预分类算法实现[D];西安电子科技大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 张勇锋;;对《旅游新报》事件的网络舆情解析[J];今传媒;2008年09期
2 王娟;;网络舆情监控分析系统构建[J];长春理工大学学报(高教版);2007年04期
3 陶建杰;;完善网络舆情联动应急机制[J];党政论坛;2007年09期
4 肖明忠,代亚非,李晓明;拆分型Bloom Filter[J];电子学报;2004年02期
5 曾润喜;;网络论坛的运行机制——以“家乐福事件”为例[J];电子政务;2009年Z1期
6 池静;倪健;王华;邢秀娥;;Bloom Filter和Weighted Bloom Filter的比较与研究[J];河北师范大学学报;2006年04期
7 孟卫一,吴宗寰;集成搜索引擎的文本数据库选择[J];计算机研究与发展;2001年04期
8 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
9 赫枫龄,左万利;用有向图法解决网页爬行中循环链接问题[J];吉林大学学报(理学版);2004年03期
10 宋晖,张岭,叶允明,马范援;基于标记树对象抽取技术的Hidden Web获取研究[J];计算机工程与应用;2002年23期
中国博士学位论文全文数据库 前1条
1 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
中国硕士学位论文全文数据库 前2条
1 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年
2 何淑芳;基于BBS文本信息的中文自动分词系统的研究[D];中国海洋大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 钟国韵;刘梅锋;;基于ASP技术的网络搜索引擎的开发[J];科技广场;2006年01期
2 林文清;;B2B垂直搜索引擎在信息获取技术中的应用[J];情报杂志;2007年09期
3 宋文琳,邹云康;基于ASP技术的网络搜索引擎的开发[J];科技广场;2005年10期
4 刘新周;;隐形网页资源产生原因与开发利用[J];农业图书情报学刊;2006年02期
5 马荣华;;试论网络搜索引擎[J];晋图学刊;2007年02期
6 孔祥春;李义杰;郑凯明;;垂直搜索引擎应用研究[J];计算机系统应用;2009年07期
7 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期
8 李彦;;基于Google搜索引擎的原理及使用[J];现代电子技术;2010年02期
9 郭兴;柯鹏;徐媛;李宗荣;;论垂直搜索引擎中的信息抽取技术的选用[J];医学信息;2006年12期
10 王旭东;;信息检索的发展概况(下)—中文全文检索简述[J];中国传媒科技;1998年06期
中国重要会议论文全文数据库 前10条
1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年
3 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
4 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
5 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
7 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
8 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 于志刚;杨金生;;农业机械网络书签[A];第十三次全国农机维修学术会议论文集[C];2007年
10 ;前言[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
中国重要报纸全文数据库 前10条
1 希安;[N];经济日报;2004年
2 叶静;[N];人民邮电;2001年
3 本报记者 潘永花;[N];网络世界;2003年
4 刘静一;[N];建筑报;2000年
5 刘光强;[N];中国计算机报;2007年
6 柏荣;[N];中国高新技术产业导报;2003年
7 刘立新;[N];学习时报;2006年
8 常燕杰;[N];中国计算机报;2006年
9 微软中国研究院 陈正 李明镜 马维英;[N];计算机世界;2001年
10 夏飞平 蒋光君;[N];中国国门时报;2009年
中国博士学位论文全文数据库 前10条
1 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
2 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
3 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
4 董道国;高维数据索引结构研究[D];复旦大学;2005年
5 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
6 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
7 林古立;互联网信息检索中的多样化排序研究及应用[D];华南理工大学;2011年
8 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年
9 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
10 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 杨宇;搜索词的意图分析与应用[D];北京邮电大学;2010年
2 李琚彪;质检舆情监控系统中信息检索的研究[D];北京邮电大学;2011年
3 乔智勇;Web数据挖掘系统的设计及关键技术研究[D];西安电子科技大学;2002年
4 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年
5 郭磊;P2P系统中的信息检索理论及应用研究[D];山东师范大学;2011年
6 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年
7 杨立淳;针对社会协作生成型数据的信息检索[D];上海交通大学;2011年
8 管玉娟;基于智能Agent的个性化信息检索技术研究[D];西安建筑科技大学;2005年
9 杭月芹;基于文档查询信息的检索系统研究与实现[D];扬州大学;2005年
10 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
本文关键词:结合本体筛选和文本挖掘的垂直搜索引擎研究,,由笔耕文化传播整理发布。
本文编号:208223
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/208223.html