互联网上少数民族信息统计分析的关键技术研究
本文选题:聚焦搜索 + 舆情监控 ; 参考:《中央民族大学》2012年硕士论文
【摘要】:随着网络的迅速发展,互联网已成为海量信息的载体。搜索引擎的出现为人们使用互联网提供了较好的便利性,同时也成为研究网站用户行为的有效工具。近年来伴随着网络的兴起,民族问题是困扰我国发展的一大障碍,其在互联网中的传播也愈来愈突出。如何运用已有搜索引擎对互联网中民族问题的传播进行监督成为目前网络舆情监控的一大课题。本文着重对网络中民族问题特定信息提取面临的关键技术进行研究。 本文首先介绍了聚焦搜索引擎及相关关键技术发展概况及原理,重点介绍了常见的网页分类算法、网页关键信息提取及抓取策略,为本文所设计的基于搜索引擎的聚焦爬虫算法及实现提供理论基础。搜索引擎搜索结果并不能完全与用户的需求匹配,且在某些情况下给出的搜索信息量明显不足。因此对搜索引擎搜索结果进行进一步聚焦搜索具有一定的价值。 互联网中信息主要以HTML页面形式出现,而HTML具有明显的分类特点。网页代码中大量的信息与搜索信息关联度很低,使得优化网页代码搜索机制显得极其重要。由于搜索的目的性较强,使得搜索的要求,如对特定事件中网页的共同特点,具有明显的结构化,因此选用空间向量对网页代码进行简化,并基于向量空问模型对问题进行算法设计。 算法首先将模型分为两大模块,百度搜索模块和聚焦搜索模块。百度搜索模块通过算法实现对搜索词在百度搜索引擎上进行抓取搜索结果对应的URL等信息,得到相应的初始URL队列;聚焦搜索模块实现以此初始URL队列作为起点,基于空间向量模型通过KNN分类算法在网络中实现聚焦爬虫搜索,得到相应的搜索结果。 最后本文完成对算法的初步实现,并对结果进行简要统计分析。通过搜索结果中所含信息的特点与社会中影响网络传播的事件进行分析,得到搜索结果与社会中敏感信息来源匹配,证明搜索结果的可操作性和有效性,为算法实现的进一步优化提供数据支持。
[Abstract]:With the rapid development of network, the Internet has become the carrier of mass information. The appearance of search engine provides a good convenience for people to use the Internet, and it has also become an effective tool to study the behavior of web users. In recent years, with the rise of the network, the national problem is a major obstacle to the development of our country, which is in the Internet. The spread is also becoming more and more prominent. How to use the existing search engines to spread ethnic issues in Internet supervision has become an important subject of the current network public opinion monitoring. This paper focuses on the network in the information extraction of ethnic problems the key technology research.
This paper first introduces the development and principle of focused search engine and related key technologies, and focuses on the common web page classification algorithm, the key information extraction and grasping strategy of web pages, which provides a theoretical basis for the search engine based focused crawler algorithm and implementation. The search engine search results can not be completely used. The needs of users, and in some cases, the amount of search information is obviously insufficient. So the search engine search results to further focus has a certain value to search.
The information in the Internet appears mainly in the form of HTML pages, while HTML has obvious classification characteristics. A large number of information in the web code is very low in association with search information. It makes it extremely important to optimize the search mechanism of the web page. It has obvious structure, so the space vector is used to simplify the web code, and the algorithm is designed based on vector space query model.
The algorithm first divides the model into two modules, the Baidu search module and the focus search module. The Baidu search module achieves the corresponding initial URL queue through the algorithm, which is corresponding to the search results of the search results on the Baidu search engine, and the focus search module realizes the initial URL queue as the starting point and is based on the space. The inter vector model realizes the focused crawler search in the network through the KNN classification algorithm, and obtains the corresponding search results.
Finally, the preliminary realization of the algorithm is completed, and the results are briefly analyzed. Through the analysis of the characteristics of the information contained in the search results and the events that affect the network propagation in the society, the search results are matched with the sensitive information sources in the society, which proves the maneuverability and effectiveness of the search results, which is the advance of the algorithm. Step optimization provides data support.
【学位授予单位】:中央民族大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.09
【相似文献】
相关期刊论文 前10条
1 李绍华;Web查询的关系数据库模型[J];计算机应用;1999年08期
2 李绍华;Web超树模型与数据的重构[J];计算机应用研究;1999年08期
3 赵仁铠,候蕾;World Wide Web概述[J];现代计算机;1999年06期
4 林庆福,余金山,吴金龙;基于Java的HTTP服务器的实现[J];福建电脑;2003年01期
5 孙琨,曹勇;利用CGI技术实现WEB服务器与DBF数据库文件的连接[J];计算机系统应用;1998年09期
6 吴林,郭翔;Java的多媒体编程方法实例[J];电脑编程技巧与维护;1998年02期
7 吕强,郭蕾,贡正仙,杨季文;一个Web抓取器的实现[J];微机发展;2001年01期
8 李泽军;JAVA网络通讯方式的探讨[J];企业技术开发;2004年03期
9 卿小兵,谭剑;一台NT服务器上实现多台Web服务器功能[J];计算机系统应用;1999年07期
10 涂育红,张颖江;Internet主页后台采集器的研究与实现[J];湖北工学院学报;1999年Z1期
相关会议论文 前10条
1 宋巍;张宇;谢毓彬;高汉东;刘挺;李生;;利用URL类别改进查询主题分类[A];第六届全国信息检索学术会议论文集[C];2010年
2 孙周军;肖文名;;基于组合策略网页防篡改系统实现方法研究[A];2011年中国气象学会气象通信与信息技术委员会暨国家气象信息中心科技年会论文摘要[C];2011年
3 林磊;刘燕兵;谭建龙;郭莉;;一种基于MPHF和Bloom Filter的URL查找算法[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 袁志坚;贾焰;;基于误差反馈的高速Web文本流快速近似分类[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
5 蔡丽萍;李茂青;;一种基于模糊聚类的日志挖掘方法及应用[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
6 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
7 江志纲;丁增喜;刘洋;王大玲;鲍玉斌;于戈;;基于面向属性规约方法的网页和超链的分类[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
8 李战胜;杜亚军;齐冬梅;;个人Web搜索服务系统的研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 蔡黎;赵军;;Automatic Identification of User Intent Based on Click Through Data[A];第六届全国信息检索学术会议论文集[C];2010年
10 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
相关重要报纸文章 前10条
1 山东 杨鑫芳;网络钓鱼与URL欺骗[N];电子报;2009年
2 黎哮苍;百度“交友型”网页发布暂未见IM踪影[N];第一财经日报;2008年
3 本报记者 那罡;新应用为URL过滤系统带来新挑战[N];中国计算机报;2009年
4 记者 董福;中国万网正式提供中文域名解析和URL转发技术服务[N];北京科技报;2001年
5 黄璞琳;有偿显示信息应具有广告识别性[N];中国工商报;2011年
6 新疆维吾尔自治区烟草公司 张勇;网络钓鱼如何防范?[N];计算机世界;2010年
7 特约记者 张宁;网络“乱收费”[N];电脑报;2002年
8 本报记者 边歆;赶潮SaaS[N];网络世界;2007年
9 ;瞄准下一步的3721[N];网络世界;2000年
10 本报记者 张彤;分类控制 精细优化[N];网络世界;2010年
相关博士学位论文 前10条
1 张健毅;大规模反钓鱼识别引擎关键技术研究[D];北京邮电大学;2012年
2 陆铭;WEB2.0网络热点发现与个性化检索研究[D];中国科学技术大学;2012年
3 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
4 朱志国;Web用户使用模式与兴趣挖掘方法研究[D];大连理工大学;2010年
5 徐军;面向金融信息检索的体裁分类与情感分析技术研究[D];哈尔滨工业大学;2011年
6 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
7 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
8 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
9 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
10 段曼妮;图像挖掘在图像检索中的应用[D];中国科学技术大学;2009年
相关硕士学位论文 前10条
1 冯胜;基于正文结构和长句提取的网页去重研究[D];重庆大学;2010年
2 王运松;互联网上少数民族信息统计分析的关键技术研究[D];中央民族大学;2012年
3 周佩颖;恶意的URL捕获分析系统[D];电子科技大学;2010年
4 吴昊;主题爬虫URL分析模型与调度技术研究[D];哈尔滨工程大学;2011年
5 林勐;交易型网页界面的编排设计研究[D];山东轻工业学院;2012年
6 王星;新闻网页抽取技术的研究与实现[D];河北工业大学;2011年
7 王跃红;基于云安全的恶意URL动态扫描系统的设计与测试[D];北京邮电大学;2010年
8 穆浩英;TrojanUrlDetector:一种基于统计分析的木马URL检测系统[D];西安电子科技大学;2010年
9 王先平;面向海量URL数据存取的快速文件系统[D];哈尔滨工业大学;2010年
10 唐芸芸;基于云安全的恶意URL动态扫描引擎的设计与测试[D];北京邮电大学;2012年
,本文编号:2045386
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2045386.html