当前位置:主页 > 科技论文 > 搜索引擎论文 >

质检舆情监控系统中信息检索的研究

发布时间:2016-12-08 14:38

  本文关键词:结合本体筛选和文本挖掘的垂直搜索引擎研究,由笔耕文化传播整理发布。


《北京邮电大学》 2011年

质检舆情监控系统中信息检索的研究

李琚彪  

【摘要】:本文分析了对产品质量、食品安全方面的质检舆情监控的意义和必要性,介绍了垂直搜索、信息抽取、中文分词、文本相似度、文本聚类、信息检索等方面的技术现状。研究了信息检索系统中的信息检索优化处理、信息检索接口的设计与实现。论文完成的主要工作如下: (1)完成了系统的总体架构设计以及网页去重、聚类优化、信息检索以及统计报表等功能模块的设计,完成了相关数据库的设计。 (2)通过引入词语共现,改进了文本相似度的算法,实现了文本相似度的计算,并将其应用到了信息检索的优化处理中。 (3)将重复网页分为完全重复网页和部分重复网页,并采用不同的算法进行判断,实现了信息检索中的网页去重功能。针对完全重复网页采用运行速度快的MD5校验码进行判重,而针对部分重复网页采用倒排索引计算相似度的方法实现了判重。 (4)通过对基本的k-means算法进行改进,实现了文本聚类。通过聚类结果对信息检索结果进行了优化。实现了信息检索系统的用户接口,包括检索接口和统计报表接口,可向用户高效、直观地展示检索结果。 本文通过计算文本相似度、网页去重和聚类优化实现了对信息检索的优化处理,然后通过检索接口和统计报表接口将结果呈现给用户,可以及时向用户提供质检舆情监控系统所采集到的相关内容,有助于政府相关部门对产品质量、食品安全方面的信息进行监督管理。

【关键词】:
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.09
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前10条

1 金益;;基于“网络蜘蛛原理”的搜索引擎技术剖析[J];电脑学习;2007年05期

2 骆庆;;中文搜索引擎中的网络蜘蛛[J];福建电脑;2006年12期

3 张丽娟;李舟军;;分类方法的新发展:研究综述[J];计算机科学;2006年10期

4 赫建营;晏海华;金茂忠;刘超;;结合本体筛选和文本挖掘的垂直搜索引擎研究[J];计算机科学;2008年02期

5 罗可,林睦纲,郗东妹;数据挖掘中分类算法综述[J];计算机工程;2005年01期

6 王利;刘宗田;王燕华;廖涛;;基于内容相似度的网页正文提取[J];计算机工程;2010年06期

7 曹恬;周丽;张国煊;;一种基于词共现的文本相似度计算[J];计算机工程与科学;2007年03期

8 郭庆琳;李艳梅;唐琦;;基于VSM的文本相似度计算的研究[J];计算机应用研究;2008年11期

9 孙西全;马瑞芳;李燕灵;;基于Lucene的信息检索的研究与应用[J];情报理论与实践;2006年01期

10 熊回香;夏立新;;自然语言处理技术在中文全文检索中的应用[J];情报理论与实践;2008年03期

【共引文献】

中国期刊全文数据库 前10条

1 罗长寿;张峻峰;孙素芬;魏清凤;;基于改进VSM的农业实用技术自动问答系统研究[J];安徽农业科学;2009年28期

2 孙喜来;王欣;葛昂;郑家民;邓宏斌;;面向相似度的多维异构数据比对模型研究[J];信息安全与技术;2011年09期

3 蒋洛丹;;网络舆情与引导机制探究[J];今传媒;2012年05期

4 王雅蕾;方付建;;舆情热点事件的热源研究——基于人民网“舆情排行榜”的分析[J];北京理工大学学报(社会科学版);2011年04期

5 周文刚;金鑫;;基于树扩展朴素贝叶斯的高效网络入侵检测系统[J];北京师范大学学报(自然科学版);2007年01期

6 施敏锋;;网络语境下高校突发事件的舆情传播及其制度干预[J];长春理工大学学报(社会科学版);2012年01期

7 张兢;候旭东;吕和胜;;基于朴素贝叶斯和支持向量机的短信智能分析系统设计[J];重庆理工大学学报(自然科学版);2010年01期

8 吴玲;;高校网络舆情与大学生人生价值观的教育[J];巢湖学院学报;2011年04期

9 李玲俐;;数据挖掘中分类算法综述[J];重庆师范大学学报(自然科学版);2011年04期

10 徐朝军;;基于主题搜索的通用教学资源共享平台设计[J];中国远程教育;2010年03期

中国重要会议论文全文数据库 前5条

1 吴琳;;网络政治学视域下虚拟社会管理实践机制探索[A];中国行政管理学会2011年年会暨“加强行政管理研究,推动政府体制改革”研讨会论文集[C];2011年

2 田鹤楠;杜军平;;产品质量食品安全互联网舆情监控系统设计[A];中国电子学会第十七届信息论学术年会论文集[C];2010年

3 梁勇;张文;;网络舆情采集系统的设计[A];2011年全国通信安全学术会议论文集[C];2011年

4 王春厚;许都;孙健;;一种降低误判率的BF快速匹配算法结构[A];2010年全国通信安全学术会议论文集[C];2010年

5 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年

中国博士学位论文全文数据库 前10条

1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年

2 方付建;突发事件网络舆情演变研究[D];华中科技大学;2011年

3 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年

4 周涛;网络舆论环境下的高校思想政治教育研究[D];西南财经大学;2011年

5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

6 李宏;面向应用领域的分类方法研究[D];中南大学;2007年

7 汪素南;智能技术在金融市场溢出效应和反洗钱中的应用研究[D];浙江大学;2007年

8 姚山;基于数据挖掘技术的造林决策研究[D];北京林业大学;2008年

9 伍平阳;基于数据挖掘技术的医疗设备绩效预测方法的应用研究[D];南方医科大学;2008年

10 张梅凤;人工鱼群智能优化算法的改进及应用研究[D];大连理工大学;2008年

中国硕士学位论文全文数据库 前10条

1 秦璐;网络舆情引导方法研究[D];广西师范学院;2010年

2 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年

3 李红;数据挖掘中特征选择与聚类算法研究[D];大连理工大学;2010年

4 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年

5 周翔;决策支持技术在企业销售系统中的应用研究[D];中国海洋大学;2010年

6 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年

7 王冉冉;基于协同过滤的主动推荐系统关键技术研究[D];昆明理工大学;2008年

8 程代娣;决策树在高职院校毕业生就业工作中应用研究[D];安徽大学;2010年

9 戴霖;网络舆情信息挖掘关键技术研究与应用[D];浙江工商大学;2011年

10 许世明;中文网页分类技术研究及预分类算法实现[D];西安电子科技大学;2009年

【二级参考文献】

中国期刊全文数据库 前10条

1 张勇锋;;对《旅游新报》事件的网络舆情解析[J];今传媒;2008年09期

2 王娟;;网络舆情监控分析系统构建[J];长春理工大学学报(高教版);2007年04期

3 陶建杰;;完善网络舆情联动应急机制[J];党政论坛;2007年09期

4 肖明忠,代亚非,李晓明;拆分型Bloom Filter[J];电子学报;2004年02期

5 曾润喜;;网络论坛的运行机制——以“家乐福事件”为例[J];电子政务;2009年Z1期

6 池静;倪健;王华;邢秀娥;;Bloom Filter和Weighted Bloom Filter的比较与研究[J];河北师范大学学报;2006年04期

7 孟卫一,吴宗寰;集成搜索引擎的文本数据库选择[J];计算机研究与发展;2001年04期

8 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期

9 赫枫龄,左万利;用有向图法解决网页爬行中循环链接问题[J];吉林大学学报(理学版);2004年03期

10 宋晖,张岭,叶允明,马范援;基于标记树对象抽取技术的Hidden Web获取研究[J];计算机工程与应用;2002年23期

中国博士学位论文全文数据库 前1条

1 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年

中国硕士学位论文全文数据库 前2条

1 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年

2 何淑芳;基于BBS文本信息的中文自动分词系统的研究[D];中国海洋大学;2006年

【相似文献】

中国期刊全文数据库 前10条

1 钟国韵;刘梅锋;;基于ASP技术的网络搜索引擎的开发[J];科技广场;2006年01期

2 林文清;;B2B垂直搜索引擎在信息获取技术中的应用[J];情报杂志;2007年09期

3 宋文琳,邹云康;基于ASP技术的网络搜索引擎的开发[J];科技广场;2005年10期

4 刘新周;;隐形网页资源产生原因与开发利用[J];农业图书情报学刊;2006年02期

5 马荣华;;试论网络搜索引擎[J];晋图学刊;2007年02期

6 孔祥春;李义杰;郑凯明;;垂直搜索引擎应用研究[J];计算机系统应用;2009年07期

7 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期

8 李彦;;基于Google搜索引擎的原理及使用[J];现代电子技术;2010年02期

9 郭兴;柯鹏;徐媛;李宗荣;;论垂直搜索引擎中的信息抽取技术的选用[J];医学信息;2006年12期

10 王旭东;;信息检索的发展概况(下)—中文全文检索简述[J];中国传媒科技;1998年06期

中国重要会议论文全文数据库 前10条

1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年

2 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年

3 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

4 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年

5 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

6 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年

7 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年

8 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

9 于志刚;杨金生;;农业机械网络书签[A];第十三次全国农机维修学术会议论文集[C];2007年

10 ;前言[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年

中国重要报纸全文数据库 前10条

1 希安;[N];经济日报;2004年

2 叶静;[N];人民邮电;2001年

3 本报记者 潘永花;[N];网络世界;2003年

4 刘静一;[N];建筑报;2000年

5 刘光强;[N];中国计算机报;2007年

6 柏荣;[N];中国高新技术产业导报;2003年

7 刘立新;[N];学习时报;2006年

8 常燕杰;[N];中国计算机报;2006年

9 微软中国研究院 陈正 李明镜 马维英;[N];计算机世界;2001年

10 夏飞平 蒋光君;[N];中国国门时报;2009年

中国博士学位论文全文数据库 前10条

1 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年

2 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年

3 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年

4 董道国;高维数据索引结构研究[D];复旦大学;2005年

5 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年

6 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年

7 林古立;互联网信息检索中的多样化排序研究及应用[D];华南理工大学;2011年

8 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年

9 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年

10 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

中国硕士学位论文全文数据库 前10条

1 杨宇;搜索词的意图分析与应用[D];北京邮电大学;2010年

2 李琚彪;质检舆情监控系统中信息检索的研究[D];北京邮电大学;2011年

3 乔智勇;Web数据挖掘系统的设计及关键技术研究[D];西安电子科技大学;2002年

4 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年

5 郭磊;P2P系统中的信息检索理论及应用研究[D];山东师范大学;2011年

6 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年

7 杨立淳;针对社会协作生成型数据的信息检索[D];上海交通大学;2011年

8 管玉娟;基于智能Agent的个性化信息检索技术研究[D];西安建筑科技大学;2005年

9 杭月芹;基于文档查询信息的检索系统研究与实现[D];扬州大学;2005年

10 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年


  本文关键词:结合本体筛选和文本挖掘的垂直搜索引擎研究,,由笔耕文化传播整理发布。



本文编号:208223

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/208223.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bf767***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com