当前位置:主页 > 管理论文 > 移动网络论文 >

基于Web的企业信息获取技术的研究与应用

发布时间:2018-05-03 03:18

  本文选题:企业信息 + 模式抽取 ; 参考:《沈阳航空航天大学》2014年硕士论文


【摘要】:互联网包含了丰富的信息资源,成为了企业获取信息的主要途径。然而由于互联网上的海量信息,如何从海量信息中找到企业所需要的信息仍为一个难题。因此,基于Web的企业信息获取技术成为目前研究的热点。 本文从企业的产品出发,基于Web发现产品的生产企业,找到企业的首页。企业首页上含有大量的有关企业的产品介绍、企业荣誉、发展目标等信息,获得了企业首页就可以全面地、及时地获取企业信息。 本文主要工作如下: 首先,针对企业名称的命名特点,本文提出了基于LCS的企业名模式抽取算法。本文首先根据已知的企业信息建立索引,实现给定产品名检索出相应的生产企业,然后基于LCS算法提取企业名称的最长公共子序列,最后根据最长公共子序列和企业名称相匹配的方法抽取出企业名模式。实验结果表明,该方法可以有效的抽取出企业名模式作为查询扩展的扩展词集。 其次,本文采用了基于贝叶斯的信息过滤方法。该方法将基于搜索引擎搜索到的网页利用贝叶斯分类器过滤后,获取企业的首页,将非企业首页过滤掉。在分类器选择特征时,本文提出了基于网页链接块的导航条锚文本抽取方法,根据网页链接间字符的间距来识别网页块,,抽取平均长度为3-5个字且数量在两个以上的锚文本,将这些锚文本作为特征词。本文选取了机械类、电力电气类、建筑建材类、材料类等产品做实验,实验结果表明,该方法取得了较好的效果。
[Abstract]:The Internet contains abundant information resources and becomes the main way for enterprises to obtain information. However, due to the huge amount of information on the Internet, how to find the information needed by enterprises from the mass information is still a difficult problem. Therefore, the technology of enterprise information acquisition based on Web has become a hot topic. This article from the enterprise's product, based on the Web discovery product production enterprise, finds the enterprise home page. The first page of the enterprise contains a lot of information about the product introduction, honor and development goal of the enterprise, so that the first page of the enterprise can obtain the information of the enterprise comprehensively and in time. The main work of this paper is as follows: Firstly, according to the naming characteristics of enterprise name, this paper proposes an algorithm of enterprise name pattern extraction based on LCS. In this paper, first of all, the index is built according to the known enterprise information, and the corresponding manufacturing enterprise is retrieved by the given product name, and then the longest common sub-sequence of the enterprise name is extracted based on the LCS algorithm. Finally, the enterprise name pattern is extracted by matching the longest common subsequence with the enterprise name. The experimental results show that this method can extract the enterprise name schema effectively as the extended word set of query. Secondly, the information filtering method based on Bayes is adopted in this paper. In this method, the web pages searched by search engine are filtered by Bayesian classifier, then the first page of the enterprise is obtained, and the non-enterprise homepage is filtered out. When the classifier selects features, this paper proposes a navigation bar anchor text extraction method based on the web link block, which can identify the web page block according to the distance between the characters of the page link, and extract the anchor text with an average length of 3-5 words and more than two words. These anchor texts are used as feature words. In this paper, mechanical, electric, building building materials and other products are selected for experiments. The experimental results show that the method has achieved good results.
【学位授予单位】:沈阳航空航天大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092;TP391.1

【相似文献】

相关期刊论文 前10条

1 林国俊;叶飞跃;耿冬;郑国良;;基于语义的概念查询扩展[J];计算机工程与设计;2009年06期

2 巩玉玺;王大玲;;一种改进的基于伪相关反馈的查询扩展[J];微计算机信息;2009年15期

3 黄名选;张师超;严小卫;;基于查询行为和关联规则的相关反馈查询扩展[J];计算机工程;2009年10期

4 张超盟;李战怀;温宗臣;;局部上下文分析剪枝概念树的查询扩展[J];计算机工程;2009年14期

5 罗小聪;;基于专用双语词典的查询扩展[J];现代计算机(专业版);2009年10期

6 李卫疆;赵铁军;王宪刚;;基于上下文的查询扩展[J];计算机研究与发展;2010年02期

7 黄明初;钟威;何拥军;蒙斌;;数字档案检索的查询扩展方法[J];广西科学院学报;2010年04期

8 王旭阳;萧波;;基于本体和局部上下文分析的查询扩展方法[J];计算机工程;2012年07期

9 朱鲲鹏;魏芳;;基于用户日志挖掘的查询扩展方法[J];计算机应用与软件;2012年06期

10 曹均阔;吴丽华;;一种基于依赖关系的综合查询扩展方法[J];计算机与数字工程;2012年11期

相关会议论文 前10条

1 黄明初;钟威;何拥军;蒙斌;;基于查询扩展的数字档案检索策略[A];广西计算机学会2010年学术年会论文集[C];2010年

2 吕碧波;赵军;;基于相关文档池建模的查询扩展[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

3 林建方;李生;郑德权;;基于词语搭配关系的查询扩展方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

4 张志强;孟庆海;谢晓芹;;个性化的社会标签查询扩展技术研究[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年

5 丁国栋;白硕;王斌;;一种基于局部共现的查询扩展方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

6 李东园;白宇;蔡东风;;基于用户日志分析的查询扩展研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

7 王秉卿;张奇;吴立德;黄萱菁;;机器学习的查询扩展在博客检索中的应用[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

8 王秉卿;黄萱菁;;基于线性模型的查询扩展方法[A];第五届全国信息检索学术会议论文集[C];2009年

9 晋松;林鸿飞;苏绥;;基于标签共现的查询扩展研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

10 郭文;史晓东;陈毅东;;跨语言信息检索中的查询扩展[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

相关重要报纸文章 前2条

1 钟威 何拥军;数字档案信息扩展查询功能需求分析及实现方式[N];中国档案报;2011年

2 潇然;扩展名信息全攻略[N];中国电脑教育报;2005年

相关博士学位论文 前2条

1 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年

2 王俊义;正负相关反馈与查询扩展技术的研究[D];内蒙古大学;2012年

相关硕士学位论文 前10条

1 姚小同;查询扩展技术研究[D];北京邮电大学;2009年

2 许威;基于概念格的查询扩展系统及建格算法研究[D];北京邮电大学;2008年

3 胡保祥;基于查询日志的查询扩展研究[D];北京邮电大学;2013年

4 董静;基于信任网络的查询扩展技术研究[D];哈尔滨工程大学;2013年

5 晋松;基于社会化标注的查询扩展技术研究[D];大连理工大学;2010年

6 瞿国忠;查询扩展技术研究[D];华中师范大学;2007年

7 胡珍新;面向用户的查询扩展研究与实现[D];江西师范大学;2004年

8 黄名选;基于完全加权关联规则挖掘的查询扩展研究[D];广西师范大学;2007年

9 韩开旭;基于查询扩展的油田网络舆情监控系统[D];东北石油大学;2011年

10 邓飞;基于本体的查询扩展研究[D];辽宁科技大学;2011年



本文编号:1836738

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1836738.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户62829***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com