基于元搜索的舆情信息采集系统的设计与实现
本文关键词:基于元搜索的舆情信息采集系统的设计与实现,由笔耕文化传播整理发布。
【摘要】:随着信息技术的飞速发展,网络越来越成为人们获取信息资源、表达思想看法的重要途径,民众针对热门人物或事件所持有的态度、信念和价值观的表达,在互联网上汇聚成不可忽视的舆论力量,网络舆情监测系统应运而生。社会事件的关键是人,通过人物抓取相关社会事件和舆论资源,以提供给相关部门作为决策依据,是舆情监控系统发展的一个重要方向。本人在北京市微普科创科技有限公司实习之际,参与了公司面向知名人士的舆情监控系统《校友大数据》的设计开发工作。在项目中,本人主要负责舆情信息采集子系统的设计实现工作。舆情信息采集技术的基础是互联网搜索技术,这就使得它和搜索引擎在设计思路、技术实现上,有着许多相同之处,通过研究搜索引擎技术,可以为舆情信息采集提供宝贵经验。本人在项目之初,为获得较好的采集广度和准确性,研究了搜索引擎基本原理,对比了现有搜索引擎技术,特别研究了元搜索引擎关键技术,最终确定项目的技术架构,并吸收全文搜索引擎索引的优点来实现舆情信息采集系统。具体改进包括:(1)在查询转换上,分析了非定向采集和定向采集站点的查询规则和页面结构,实现了精准采集;(2)基于对舆情信息系统存储特殊性的考量,在对元搜索引擎改进方面,建立了元搜索引擎的网页数据库;通过实验对比Lucene内存倒排索引来进行方案优选,建立了MySQL倒排索引数据库,更好地实现了站内全文搜索功能;(3)在元搜索消重策略选择上,通过对现有方案的对比分析,优选出适合本系统的标题和正文关键词结合的向量空间算法,得到最佳消重策略;(4)在舆情信息结果排序方面,基于对舆情监控系统展现层兴趣排序的需求,从元搜索引擎排序技术中得到启发,借用并改进了HITS算法,使得排序结果更大程度上满足用户需求,并通过实验验证了设计的合理性。在实现兴趣排序的同时,通过结合垂直搜索思想解决了HITS算法存在的主题漂移问题,最终通过系统测试来证明了改进排序算法的优越性;(5)在定向采集上,本人通过对贴吧结构的分析,建立了贴吧概念模型,结合舆情采集需求,建立出概念模型,最终确定系统物理模型。最终通过项目开发实现了本系统,并在系统运行数据的基础上设计测试并进行统计分析,最终验证了设计的合理性,具体包括:(1)系统采集新闻信息覆盖超出传统搜索引擎的17%,证明了采集系统使用元搜索引擎的优越性;(2)在HITS算法改进之后,页面排序中的首页点击率提高13%,前三页总点击率从67%上升到了83%,说明通过结合用户兴趣能够提供给用户更好的搜索结果,减少了用户的使用成本,提升了用户体验;(3)改进HITS算法主题漂移现象得到遏制;
【关键词】:舆情采集 元搜索 垂直搜索 HITS算法 兴趣排序 主题漂移
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.52;TP274.2
【目录】:
- 致谢5-6
- 摘要6-8
- ABSTRACT8-12
- 1 绪论12-17
- 1.1 研究背景12-13
- 1.2 搜索引擎的研究现状13-14
- 1.3 搜索引擎的问题定义14-15
- 1.4 研究内容和目标15-16
- 1.5 论文的难点和关键任务16
- 1.6 论文的组织结构16-17
- 2 元搜索技术综述17-27
- 2.1 元搜索系统结构17-18
- 2.2 成员搜索引擎调度策略18-19
- 2.3 查询转换和页面采集技术19
- 2.4 元搜索引擎消重技术19-21
- 2.5 元搜索结果排序21-25
- 2.5.1 元搜索结果排序算法21-22
- 2.5.2 HITS算法22-25
- 2.6 网络爬虫25-26
- 2.7 本章小结26-27
- 3 元搜索技术问题分析和优化方案设计27-45
- 3.1 元搜索系统结构的优化和改进27-33
- 3.1.1 基于搜索优化的元搜索存储问题识别27-29
- 3.1.2 基于倒排索引的方案优选29-33
- 3.2 查询转换和页面分析33-36
- 3.2.1 元搜索引擎查询转换和页面分析33-34
- 3.2.2 定向采集站点查询转换和页面分析34-36
- 3.3 元搜索网页消重算法的优选36-38
- 3.4 元搜索结果排序算法的改进38-44
- 3.4.1 HITS算法的“主题漂移”问题38
- 3.4.2 元搜索结果排序算法改进的基本思路38-40
- 3.4.3 改进后的元搜索结果排序算法逻辑设计40-43
- 3.4.4 HITS算法改进方案设计43-44
- 3.5 本章小结44-45
- 4 基于元搜索的舆情信息采集系统的设计与实现45-66
- 4.1 概要设计45-52
- 4.1.1 系统架构45-48
- 4.1.2 系统概念模型48-52
- 4.1.3 代码框架设计52
- 4.2 详细设计和实现52-65
- 4.2.1 成员搜索引擎调度模块53
- 4.2.2 查询转换和页面采集模块53-56
- 4.2.3 消重模块56-58
- 4.2.4 排序模块58-61
- 4.2.5 系统数据库设计61-65
- 4.3 本章小结65-66
- 5 系统性能分析和测试66-70
- 5.1 元搜索查全率统计分析66
- 5.2 排序结果比较66-69
- 5.2.1 直观数据67-68
- 5.2.2 PV和CTR统计分析68-69
- 5.3 本章小结69-70
- 6 结论70-72
- 6.1 工作总结70-71
- 6.2 工作不足和展望71-72
- 参考文献72-74
- 附录A74-75
- 索引75-76
- 作者简历及攻读硕士/博士学位期间取得的研究成果76-78
- 学位论文数据集78
【参考文献】
中国期刊全文数据库 前10条
1 王惠;;基于用户满意度的搜索引擎实证研究[J];情报科学;2015年09期
2 刘志明;王琨;;舆情监测系统中信息采集模块的设计与实现[J];南华大学学报(自然科学版);2015年02期
3 胡晴云;马鸿;;网络舆情获取与分析技术初探[J];甘肃警察职业学院学报;2014年04期
4 邹腊梅;龚向坚;欧阳利军;;基于用户历史及兴趣度的HC-HITS算法研究[J];南华大学学报(自然科学版);2013年02期
5 李阳;杨胜斌;;大众传媒时代网络舆情的兴起与应对[J];电子测试;2013年12期
6 杨更;;基于元搜索的信息采集平台设计与实现[J];计算机应用与软件;2012年07期
7 曹林;韩立新;吴胜利;;元搜索引擎排序技术综述[J];计算机应用研究;2009年02期
8 张卫丰,徐宝文,周晓宇,许蕾,李东;元搜索引擎结果生成技术研究[J];小型微型计算机系统;2003年01期
9 宋擒豹,沈钧毅;数字商品非法复制和扩散的监测机制[J];计算机研究与发展;2001年01期
10 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
中国硕士学位论文全文数据库 前3条
1 朱彦杰;基于搜索引擎的舆情分析系统研究与实现[D];电子科技大学;2012年
2 李宪雷;元搜索关键技术研究与实现[D];北京工业大学;2008年
3 雷万保;元搜索引擎关键技术研究[D];西北工业大学;2007年
本文关键词:基于元搜索的舆情信息采集系统的设计与实现,,由笔耕文化传播整理发布。
本文编号:262174
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/262174.html