文献主题_商业主题搜索引擎研究
本文关键词:主题搜索引擎研究,由笔耕文化传播整理发布。
商业主题搜索引擎研究
2010年02月09日10:12 中国电子商务研究中心 我要投稿 产品服务
一、引言
互联网对商业发展产生了巨大的推动作用,我国商业信息网站已经发展到成千上万家,在传播商业政策和信息方面发挥了显著作用。随着网络信息数量的迅猛增长,“信息过载”、“信息超载”现象引起了人们的重视。如何高效、准确的获得包含用户所需的信息的网页,日益成为需要迫切解决的问题。
垂直搜索引擎是解决这一问题的一个有效方法。面向商业的中文专题垂直搜索引擎有针对性的搜索网上商业专题信息,从而使商务人员高效检索所需的信息。而随着万维网上的信息数量呈指数增长,大量信息垃圾也混杂其中。如何向商业用户提供质量好且数量适当的检索结果成为垂直搜索引擎关注的方向之一。
二、国内外现状与发展趋势
垂直搜索引擎大都处于研究和试验阶段,利用其搜索的结果再加上专业人士的加工而形成的面向某一学科、领域的垂直门户网站也已经出现。目前在国外,对有关主题搜索引擎的研究已经成为一大热点,我国主题搜索引擎的研究则刚刚起步。
目前面向主题的网络搜索主要有两种技术:
一是基于内容的搜索,这种搜索方式是传统的信息检索技术的延伸。它的主要方式就是在搜索引擎内部建立一个针对主题的词表,搜索引擎的爬行器根据其内设的词表对网上的信息进行索引。各个不同的系统词表建设的复杂度也大不相同。
二是基于链接分析的搜索。网页之间的链接指引关系与传统的引文索引非常相似,通过对链接进行分析,可以找出各个网页之间的引用关系。由于引用网页与被引用网页之间内容上一般都比较相关,所以就可以很容易地按照引用关系对大量网页分类。
三、技术关键
基于面向商业的垂直搜索引擎服务具有其自身的特性,下面列举出实现商业信息垂直搜索引擎的四大关键技术。
1.针对性、实时性和易于管理的网页采集技术:面向商业的垂直搜索带有专业性或行业性的需求和目标,所以只对局部来源的网页进行采集,采集的网页数量适中,但其要求采集的网页全面,必须达到更深的层级,采集动态网页的优先级也相对较高。在实际应用中,垂直搜索的网页采集技术应能够按需控制采集目标和范围、按需支持深度采集及按需支持复杂的动态网页采集,即采集技术要能达到更加针对性、实时性和易于管理,并且网页信息更新周期也更短,获取信息更及时。
2.结构化数据的网页解析技术:由于面向商业的垂直搜索引擎服务的特殊性,往往要求按需提供时间、来源、作者及其他元数据解析,包括对网页中特定内容的提取。在商业垂直搜索服务中,要求对于作者、主题、地区、机构名称、产品名称以及特定行业用语进行提取,才能进一步提供更有价值的搜索服务。
3.全文索引和联合检索技术:面向商业的垂直搜索由于在信息的专业性和使用价值方面有更高的要求,因此能够支持全文检索和精确检索,并按需提供多种结果排序方式。另外,还要求按需支持结构化和非结构化数据联合检索,比如结合作者、内容、分类进行组合检索等。
4.智能化的文本挖掘技术:面向商业的垂直搜索是以结构化数据为最小单位。基于结构化数据和全文数据的结合,垂直搜索才能为用户提供更加到位、更有价值的服务。整个结构化信息提取贯穿从网页解析到网页加工处理的过程。同时面对上述要求,垂直搜索还能够按需提供智能化处理功能,,比如自动分类、自动聚类、自动标引、自动重排,文本挖掘等等。这部分是垂直搜索乃至信息处理的前沿技术。
四、设计方案
1.技术路线。采用如下的研究开发路线:
(1)针对商业信息的分布特点以及用户的实际需求,在充分调研的基础上,详细了解和比较其他研究人员在类似领域取得的一些重要而有一定创新性的成果,在此基础上初步提出平台的整体架构。
(2)结合面向对象设计技术,对上一步设计出的平台进一步细化,从而明确对该项目所采用的具体设计模式。
(3)根据设计模式所面临的具体问题(例如,如何提高爬行速度问题、系统资源限制问题、网页分类器问题、HTML文档解析问题等)给出有效的解决方案。
(4)将以上的方案付诸实施,形成一个面向商业的信息查询与共享平台;同时对系统的各种参数进行进一步测试,不断地完善和优化,最终形成一个界面友好、响应速度/查全率/查准率均符合用户要求的面向商业的垂直搜索引擎。
2.创新点。为达到商业信息搜索引擎预期的响应速度、查全率和查准率,在系统的开发中有如下创新点:
(1)系统总体为模块化结构,各个模块之间高内聚,低耦合。
(2)系统使用面向对象语言开发,能够有效地重用系统部分代码。
(3)在设计过程中,使用面向对象的思想做指导,建立系统类图,便于开发人员之间的交流。在编码过程中,不断重构代码,使得代码具有很高的运行效率,大大提高其重用性。
(4)系统集成时,使用XML文档作为模块间传递信息的工具。
(5)大量采用散列表来提高数据的查找速度,优化系统性能。
目前,对于搜索引擎的首要关注点已经从如何找到更多的信息转移到如何找到准确、有用的信息,查准率已经成为众多搜索引擎的首要目标。垂直搜索引擎从商业专题出发,有针对性的搜索网上商业专题信息,从而使商务用户高效检索所需的信息。这项研究可以方便商业用户更有效的挖掘网上信息资源,提高信息查询效率。从商业搜索引擎入手,这种以点带面的新构想必将使商业用户上网获得所需专题信息,并且对搜索引擎的发展产生不可低估的影响。(编选:中国搜索研究中心)
【独家专题】【查看评论】【】【】【我要纠错】
「关键字」
会议报道
B2B研究
B2C研究
版权声明
(1)凡本中心注明“来源:中国电子商务研究中心”或带有中国电子商务研究中心水印LOGO的所有文字、图片、音频、视频及其他任何形式的作品 ,其版权均属中国电子商务研究中心所有,任何媒体、网站或个人未经本中心协议授权不得转载、链接、转贴或以其他方式复制发布/发表。已与本中心协议授权的媒体、网站,在下载使用时必须注明“稿件来源:中国电子商务研究中心”,违者本中心将依法追究责任。
(2)转载或引用本中心内容必须是以新闻性或资料性公共免费信息为使用目的的合理、善意引用,不得对本中心内容原意进行曲解、修改,同时必须保留本中心注明的“稿件来源”,并自负版权等法律责任。
(3)对于不当转载或引用本中心内容而引起的民事纷争、行政处理或其他损失,本中心不承担责任。
(4)凡本中心注明“来源:xxx(非中国电子商务研究中心)”的文/图等稿件,均转载自其它媒体、网站与机构,其转载目的在于传递更多信息,并不代表本中心赞同其观点和对其真实性负责,请读者仅作参考,并请自行核实相关内容,如其他媒体、网站或个人从本网下载使用,必须保留本网注明的“稿件来源”,并自负版权等法律责任。
(5)关于本中心发布的用户投诉稿件,信息均由用户通过本中心投诉通道提供,本中心不对其真实性负责,若内容真实性有误,请与本中心联系,本中心将在核实后进行处理。
(6)对不遵守本声明或其他违法、恶意使用本中心内容者,本中心保留追究其法律责任的权利。
(7)如因作品内容、版权和其它问题需要同本中心联系的请发送相关内容至邮箱:news@netsun.com)
此版权声明解释权归中国电子商务研究中心所有。
本文关键词:主题搜索引擎研究,由笔耕文化传播整理发布。
本文编号:141951
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/141951.html