面向企业信息的Web聚焦搜索的设计与实现
本文选题:聚焦搜索 切入点:聚焦爬虫 出处:《南京师范大学》2013年硕士论文 论文类型:学位论文
【摘要】:从海量网络资源中获取企业基本信息,为企业的客户关系管理、潜在竞争对手发现等提供信息支持,对于企业的生存和发展壮大具有重要意义。鉴于通用搜索引擎处理这类问题时存在的局限性,本文设计实现了面向企业信息的聚焦搜索来满足此类需求。 Web中的企业信息页面可以分为两大类:企业信息以结构化表格形式呈现的POI页面、企业信息以非结构化文本形式呈现的TOI页面。两类页面结构差异较大,聚焦搜索过程需分开进行。聚焦爬虫和信息抽取是实现聚焦搜索的两个核心任务,围绕聚焦搜索的这两个核心任务,且面向企业信息的两种不同表现形式,本文主要展开了如下几个方面的研究工作: 1、面向POI的聚焦爬虫。现有聚焦爬虫研究多是面向主题的,对于面向POI的用户需求目前还较缺乏相关研究。本文利用朴素贝叶斯与支持向量机等分类器模型,通过设计有效的特征模板,实现了面向POI的聚焦爬虫。实验结果表明利用爬虫对面向POI的用户需求进行聚焦是可行的。 2、面向TOI的聚焦爬虫。现有聚焦爬虫在处理文本页面时,大多直接对页面内的所有文本进行处理,这就引入了较多的噪音内容。本文采用改进的页面相关性分析算法,仅获取与主题最相关的五块文本,对不同块赋予相应的权重,利用分类模型方法判断整体的相关性,实现了面向TOI的聚焦爬虫。实验也采用朴素贝叶斯和支持向量机分类模型,实验结果与基于页面全部文本实现的聚焦爬虫Baseline系统相比,收获率平均高出20%左右,最高差值可达51.35%,充分说明了改进的页面相关性算法是非常有效的。 3、企业信息抽取。以聚焦爬虫获取的相关网页集为数据源,抽取POI域、TOI域内的企业信息。POI域内的企业信息布局规范,结构规律性较强,因此仅采用包装器方式对相对简单的POI域进行信息抽取。对于相对较复杂的TOI域内的企业信息,本文采用统计学习模型将任务分解为两步进行抽取:先判断一个句子是否包含槽信息,然后判断句中短语所属的槽类别,根据句子和短语的联合概率确定最终的槽填充内容。实验定义了8种企业属性作为待填充槽,各类槽的平均F-measure达到93.8%,比基于规则方法实现的Baseline系统结果平均高出7.6%,充分显示了算法的有效性。
[Abstract]:To obtain the basic information of the enterprise from the massive network resources, to provide the information support for the customer relationship management of the enterprise, the discovery of potential competitors, etc. In view of the limitations of general search engine in dealing with this kind of problems, this paper designs and implements focused search for enterprise information to meet this kind of requirements. The enterprise information pages in Web can be divided into two categories: the POI pages in which the enterprise information is presented in the form of structured tables, and the TOI pages in which the enterprise information is presented in the form of unstructured text. Focusing crawler and information extraction are the two core tasks of focusing search. The main work of this paper is as follows:. 1. Focus crawler for POI. Most of the existing focused crawler research is theme-oriented, but there is still a lack of relevant research on POI user requirements. In this paper, we use naive Bayes and support vector machine classifier model, and other classifier models, such as naive Bayes and support vector machine, are used in this paper. An effective feature template is designed to realize the POI oriented focused crawler. The experimental results show that it is feasible to use the crawler to focus the POI oriented user requirements. 2, focus crawler for TOI. Most of the existing focused crawlers directly process all the text in the page, which introduces more noise content. In this paper, the improved page correlation analysis algorithm is used. Only five pieces of text that are most relevant to the topic are obtained, the corresponding weights are given to the different blocks, and the whole correlation is judged by the classification model method, and the focused crawler oriented to TOI is realized. The experiment also uses naive Bayes and support vector machine classification models. Compared with the focused crawler Baseline system based on all page text, the experimental results show that the average harvest rate is about 20% and the maximum difference is 51.35, which fully shows that the improved page correlation algorithm is very effective. 3. Enterprise information extraction. Taking the relevant web page set obtained by focused crawler as data source, extracting enterprise information layout standard in POI domain and TOI domain, the structure is more regular. Therefore, only the wrapper is used to extract information from the relatively simple POI domain. For the enterprise information in the relatively complex TOI domain, In this paper, a statistical learning model is used to decompose the task into two steps: first to determine whether a sentence contains slot information, and then to determine the slot category of the phrase in the sentence. According to the joint probability of sentences and phrases, the final slot filling content is determined. Eight kinds of enterprise attributes are defined as the slots to be filled. The average F-measure of various grooves is 93.8, which is 7.6 times higher than the average result of the rule-based Baseline system, which fully shows the effectiveness of the algorithm.
【学位授予单位】:南京师范大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 叶碧云,刘青;基于Web技术的设备管理信息系统[J];洪都科技;2003年02期
2 何志勇 ,何绍荣;基于WEB的学生成绩管理系统[J];自贡师范高等专科学校学报;2003年04期
3 刘庆红;基于Web的综合教务管理信息系统的分析与设计[J];吉林省经济管理干部学院学报;2004年01期
4 贾志娟,胡明生;基于Web的答疑系统设计与实现[J];河南纺织高等专科学校学报;2004年03期
5 王斌,刘浙;基于Web的电力调度自动化系统的实现[J];计算机与现代化;2004年11期
6 尹健康,宋红文,朱伏平,杜祥兵;基于Web的设备管理信息系统设计与研究[J];西南科技大学学报(自然科学版);2004年03期
7 盛志伟,刘仕筠,刘双虎;基于Web的网络考试系统的设计与实现[J];计算机与现代化;2005年07期
8 耿道武;Web服务提供银行中间业务新形式[J];华南金融电脑;2005年08期
9 石建玲,印建平,葛敬霞,李红彦;基于Web设备管理信息系统中设备分类编码规则的研究[J];现代制造工程;2005年09期
10 尤超常;浅谈WEB数据挖掘[J];中国科技信息;2005年04期
相关会议论文 前10条
1 黄海林;孙向阳;;基于Web的大学物理试题管理系统的设计[A];湖北省物理学会、武汉物理学会成立70周年庆典暨2002年学术年会论文集[C];2002年
2 于莉莉;张毅;;基于Web的人力资源管理系统研究与设计[A];2008全国制造业信息化标准化论坛论文集[C];2008年
3 李中华;;企业Web应用安全威胁与防护[A];创新·融合·发展——创新型煤炭企业发展与信息化高峰论坛论文集[C];2010年
4 刘兵;何新林;张伟;吴东峰;何小莲;;基于Web的奎屯河流域水库调度自动化系统研究[A];第三届全国水力学与水利信息学大会论文集[C];2007年
5 刘颖;;基于Web的学生信息管理系统的设计与实现[A];2008年计算机应用技术交流会论文集[C];2008年
6 张玉艳;黄国栋;冯文堂;侯金奎;;一种模型驱动的WEB报表系统开发方法[A];第二十七届中国控制会议论文集[C];2008年
7 李毅;顾健;顾铁军;;系统等级保护中的Web应用安全评估[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
8 叶良;刘富强;邓戈;赵忠;;基于WEB的数字视频监控系统开发[A];第十二届全国煤矿自动化学术年会论文专辑[C];2002年
9 刘岩;阎钦运;张刚;;基于WEB的企业人力资源管理系统的研究与实现[A];第十七届全国煤矿自动化学术年会、中国煤炭学会自动化专业委员会学术会议论文集[C];2007年
10 粟智;;基于Web技术下的分析实验室计算机网络管理系统的开发与设计[A];2003年药物分析论坛“热分析在药物分析中的应用”专题学术研讨会论文集[C];2003年
相关重要报纸文章 前10条
1 本报记者 刘继安;准备好了吗?WEB教师[N];中国教育报;2001年
2 张承东;Web智能考核广告[N];网络世界;2009年
3 科讯;WEB教师——一个全新职业的透析[N];科技日报;2001年
4 王雅丽;博客社区齐上阵 银行借Web 2.0拉拢未来客户[N];中国计算机报;2008年
5 本报记者 黄智军;Web应用呼唤新型安全系统[N];计算机世界;2009年
6 居易;WEB教师热门起来[N];组织人事报;2001年
7 本报记者 赵晓涛;四问“Web防御与云安全”[N];网络世界;2008年
8 本报记者 徐恒;手机浏览器:竞争不断加剧 Web大势所趋[N];中国电子报;2009年
9 电脑商报记者 张戈;Web应用安全正当时[N];电脑商报;2010年
10 李晨;Web应用安全应贯穿生命周期[N];人民邮电;2009年
相关博士学位论文 前10条
1 孙慧峰;基于协同过滤的个性化Web推荐[D];北京邮电大学;2012年
2 何儒汉;Web图像的多模融合检索研究[D];华中科技大学;2007年
3 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
4 龙慧云;基于进程代数的Web服务数据和组合的形式化方法研究[D];贵州大学;2009年
5 孙涛;面向市场情报分析的Web实体事件融合问题研究[D];山东大学;2014年
6 谢琪;基于协同过滤与QoS的个性化Web服务推荐研究[D];重庆大学;2012年
7 刘方方;Web服务合成与可用性的若干关键技术研究[D];复旦大学;2007年
8 刘晓光;网络化制造中Web服务自动组合的若干关键技术研究[D];上海交通大学;2008年
9 李杰;基于服务质量的Web服务模型及应用研究[D];中国科学院研究生院(计算技术研究所);2005年
10 许洪波;大规模信息过滤技术研究及其在Web问答系统中的应用[D];中国科学院研究生院(计算技术研究所);2003年
相关硕士学位论文 前10条
1 曾确令;基于WEB挖掘的消费者细分及推荐应用研究[D];吉林大学;2009年
2 袁桂兰;WEB分布式数据库系统的研究与实现[D];中国人民解放军信息工程大学;2002年
3 李超俊;基于Web的客户信息管理系统的开发[D];吉林大学;2011年
4 焦威;面向Web应用的构件组装系统研究与实现[D];西安理工大学;2009年
5 李吉平;基于Web技术的森林资源信息管理系统研建[D];西北农林科技大学;2009年
6 白洁婷;基于Web的在线虚拟实验室的研究[D];华中科技大学;2009年
7 吴卉;基于Web的机械零件库浏览系统的研发[D];南京航空航天大学;2010年
8 田振强;基于Web的小麦信息管理系统的构建[D];河南农业大学;2010年
9 张平;基于Web技术的压铸模具协同设计原理与应用系统研究[D];四川大学;2005年
10 谢春丽;基于数据挖掘的Web行为特征分析与研究[D];苏州大学;2003年
,本文编号:1593656
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1593656.html