专业信息定向采集与多维搜索系统
本文选题:分布式爬虫 + 信息抽取 ; 参考:《浙江大学》2017年硕士论文
【摘要】:决策依靠经验、直觉和逻辑驱动,但大数据时代以来,特别对专业领域来讲,决策越来越依靠数据驱动。互联网上存在大量领域相关文本信息,这些信息多以新闻报道、博客、社区门户等形式存在。多维搜索是一种基于排序与分类的搜索技术,如何将这些技术应用到互联网专业领域数据是一个非常复杂的流程,涉及内容从如何从互联网采集信息、保证HTML文本质量到自然语言处理与多维搜索技术等。本文结合分布式定向爬虫、数据清洗、文本分析、多维搜索等技术,构建了一个面向专业领域的互联网定向数据采集与多维搜索系统。本文基于一个实际的应用例子,聚焦于实现一个简单易用且可扩展的系统用于专业领域的互联网文本分析。本文主要工作包括:1)基于专业领域互联网数据采集需求,构建了一个分布式定向爬虫。与全文抓取不同,分布式定向爬虫要求从互联网快速抓取深层次、精确化的结构化数据;2)构建信息抽取通道,用于清洗加工分布式爬虫采集下来的数据。步骤主要包括去除网页噪音、进行内容查重、丢弃无关专业领域数据、文本分词与实体抽取;3)为使系统更具备交互性,系统提供对采集数据的多维检索服务。在数据加工的基础上,根据专业领域概念体系,提供多维搜索以辅助全文检索服务;
[Abstract]:Decision-making is driven by experience, intuition and logic, but since big data's time, especially in the professional field, decision-making has been more and more data-driven. There are a large number of related text information on the Internet, mostly in the form of news reports, blogs, community portals and so on. Multidimensional search is a kind of search technology based on sorting and classification. How to apply these technologies to the data of Internet professional domain is a very complicated process, which involves how to collect information from the Internet. Ensure HTML text quality to natural language processing and multidimensional search technology. Based on distributed directional crawler, data cleaning, text analysis, multidimensional search and other technologies, an Internet oriented data acquisition and multidimensional search system for professional field is constructed in this paper. Based on a practical application example, this paper focuses on the implementation of a simple and extensible system for Internet text analysis in specialized fields. The main work of this paper includes: (1) A distributed oriented crawler is constructed based on the requirement of Internet data acquisition in professional domain. Different from full-text crawling, distributed directional crawlers need to quickly capture deep and accurate structured data from the Internet and construct information extraction channels for cleaning and processing the data collected by distributed crawlers. The steps mainly include removing the noise of the web page, checking the content, discarding the irrelevant domain data, extracting the text word and entity 3) in order to make the system more interactive, the system provides the multi-dimensional retrieval service to the collected data. On the basis of data processing, according to the concept system of professional domain, multi-dimensional search is provided to assist the full-text retrieval service.
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 吕宜男;;计算机辅助搜索系统[J];机械与电子;1991年05期
2 杨春贺,白煜炜,宋永梅;超媒体搜索系统的实现方案[J];网络与信息;2000年07期
3 张戬慧;王洪斌;;兽药类科技文献信息搜索系统的构建研究[J];情报探索;2009年09期
4 莫倩;张传想;;互联网科技专家搜索系统[J];计算机系统应用;2013年05期
5 张钟华;基于单片微计算机的新型核磁共振信号锁定及搜索系统[J];计量学报;1988年04期
6 董飚,庄卫华;新闻搜索系统的研究[J];乌鲁木齐职业大学学报;2003年01期
7 程传鹏;王天志;;一种自反馈式元搜索系统的设计[J];中原工学院学报;2011年04期
8 金传升;;Racal公司向亚太地区出售COMINT/DF系统[J];通信技术;1992年04期
9 刘山根;;硬盘搜索系统设计与实现[J];软件导刊;2013年12期
10 陈灶芳 ,黄国涛;用于互联网信息搜索系统的网络蜘蛛设计与实现[J];广东科技;2005年01期
相关会议论文 前7条
1 李燕军;;浅谈互联网信息搜索系统的应用[A];第十九次全国计算机安全学术交流会论文集[C];2004年
2 刘雷;吕英华;杨文翰;;一种新型的漏泄电磁波搜索系统[A];电波科学学报[C];2011年
3 张雪;刘正捷;陈军亮;江彩华;;招聘网搜索系统的可用性研究[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国人机交互学术会议(CHCI'06)论文集[C];2006年
4 赵一雷;徐真昊;;多分子构象搜索系统构建及应用[A];中国化学会第28届学术年会第13分会场摘要集[C];2012年
5 战晓苏;林宗楷;李正国;苏忠;张少华;;基于MAS的信息资源协同搜索系统的系统结构[A];中国图象图形学会第十届全国图像图形学术会议(CIG’2001)和第一届全国虚拟现实技术研讨会(CVR’2001)论文集[C];2001年
6 陆慧娟;唐文彬;程倬;王训斌;;基于WebGIS的散车配货和位置服务公共搜索系统[A];第四届和谐人机环境联合学术会议论文集[C];2008年
7 张永华;洪锋;李明禄;薛广涛;;个性化的P2P内容搜索系统的设计与实现[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
相关重要报纸文章 前3条
1 黄寰;地震救助生命搜索系统诞生[N];中国矿业报;2004年
2 特约记者 李积轩;美研制新型扫雷系统[N];中国船舶报;2002年
3 李彬彬;蓝帆、网擎携手打造一流搜索引擎[N];中国商报;2000年
相关硕士学位论文 前10条
1 吕佳;基于Elastic Search的分布式日志搜索系统设计[D];复旦大学;2013年
2 高玉民;基于solr的搜索系统设计与实现[D];华南理工大学;2015年
3 刘佳奇;酒店订购平台搜索系统的设计与实现[D];北京交通大学;2016年
4 赖友强;应用于户外的无人机应急搜索系统研究[D];西京学院;2016年
5 陈芊芊;基于solr搜索引擎的在线问答搜索系统的设计与实现[D];湖南大学;2015年
6 周鑫;基于文本的手机视频搜索系统的设计与实现[D];上海交通大学;2015年
7 仲维东;E-Learning课程资源存储搜索系统设计与实现[D];大连理工大学;2016年
8 吴梦潇;基于HADOOP的分布式云平台搜索系统设计与实现[D];湖南大学;2016年
9 张锋;支持布尔查询的桌面搜索系统的设计与实现[D];天津工业大学;2017年
10 白福裕;专业信息定向采集与多维搜索系统[D];浙江大学;2017年
,本文编号:1783978
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1783978.html