本文关键词: 搜索引擎 表格 TableRank 出处:《北京工业大学》2013年硕士论文 论文类型:学位论文
【摘要】:随着网络信息的快速增长,搜索引擎的作用越发的重要。而为了进一步处理和挖掘网络日渐增长的庞大信息,搜索引擎本身也相应地要寻求某些除了简单的网页文本以外的载体。 网络表格搜索引擎系统就是利用计算机对网页上的表格按照一定的规则进行提取、分析、存储、检索的搜索引擎系统,其目的是为网络信息检索提供一种新的载体。表格作为一种新式载体,具有普遍性、易读性和结构化的三大特点,非常适合用来作为搜索的元素来反映整个网络世界的结构和内容,并且易于为计算机分析和处理。 网络表格搜索引擎系统作为一种搜索引擎系统,也具有搜索引擎系统基本的数据处理流程和处理方法。但是与普通网页文本搜索引擎不同的是,其基础技术还包括表格甄选、表头甄别、表格排序三部分。每个部分都需要特别针对表格这种新载体的特点,设计特殊的处理过程和算法。本研究针对这一问题进行了研究与实践,主要包括以下几方面的工作: 1、表格甄选。该方面实现了从结构方面实现对网页中的有数据意义的表格的甄选过程的算法,并把这种算法与从内容方面的识别的算法进行了比较。 2、表头甄别。该方面实现了快速有效地甄别表格中是否存在表头以及找到表头的算法。该算法提出了从结构、内容、样式等诸多方面对表格的行或列进行考量,并且通过结合机器学习算法提高准确性。 3、表格排序。该方面提出了TableRank算法来实现了类似于PageRank算法的、适用于表格的查询词无关算法,为缺少超链接的实体的排序提供了一些新的思路。 4、构建成网络表格搜索引擎,根据运行情况,,对三个阶段的系统结果进行了统计和分析,评价了本文所设计的算法的效果。系统运行的结果可以有效地帮助用户更快更好地找到所需表格,从而进一步了解该网页乃至整个网络世界。 通过该系统的构建及相应算法的设计,探索了表格搜索的一些特殊性,为相关的研究和工具开发做了有意义的探索。
[Abstract]:With the rapid growth of network information, the role of search engines is becoming more and more important. The search engine itself should also seek some carriers in addition to simple web text. The network form search engine system is a search engine system that extracts, analyzes, stores and retrieves the tables on the web pages according to certain rules. The purpose is to provide a new carrier for network information retrieval. As a new type of carrier, tables have three characteristics: universality, readability and structure. It is well suited to be used as a search element to reflect the structure and content of the entire web world and is easy to analyze and process for computers. As a kind of search engine system, the network table search engine system also has the basic data processing flow and the processing method of the search engine system. But different from the ordinary web page text search engine, its basic technology also includes the table selection, Each part needs to design special processing process and algorithm according to the characteristics of the new carrier of table. This research has carried on the research and the practice aiming at this problem. This includes the following areas of work:. 1. Table selection. In this aspect, the algorithm of selecting tables with data meaning in web pages is realized from the aspect of structure, and the algorithm is compared with the algorithm of content recognition. 2, header discrimination. In this aspect, we can quickly and effectively identify whether or not a table header exists in a table and find a header. The algorithm proposes to consider the row or column of a table from many aspects, such as structure, content, style, and so on. And by combining machine learning algorithm to improve the accuracy. 3. Table sorting. In this paper, TableRank algorithm is proposed to implement the query word independent algorithm similar to PageRank algorithm, which provides some new ideas for the sorting of entities lacking hyperlinks. 4. Build a network table search engine. According to the running situation, we make statistics and analysis on the results of the three stages of the system. The results of the system can help users to find the required tables faster and better, so as to better understand the web page and even the whole network world. Through the construction of the system and the design of the corresponding algorithm, this paper explores some particularities of table search, and makes a meaningful exploration for the related research and tool development.
相关期刊论文 前10条
1 ;世界首款在线联系人搜索引擎问世[J];计算机与网络;2008年11期
2 靳鲁黔,秦颖;独立搜索引擎基本工作原理分析及其简介[J];农业图书情报学刊;2005年05期
3 程彩凤;杜友福;;搜索引擎技术分析[J];科技信息;2007年01期
4 孙雁群;周燕青;;人民银行内联网搜索引擎探讨[J];华南金融电脑;2007年04期
5 戴建中;GnetFtp搜索引擎的算法设计与实现[J];汕头大学学报(自然科学版);2005年03期
6 张继刚;搜索引擎使用技巧[J];网络与信息;1999年09期
7 ;关键词搜索[J];每周电脑报;2000年38期
8 陈冰;;饿狼一样的网站提交工具——“提交饿狼”[J];科学之友;2000年07期
9 许斗;从Google看新一代搜索引擎的发展趋向[J];芜湖职业技术学院学报;2001年01期
10 周毅华;从搜索引擎的分类看其应用技巧[J];图书馆理论与实践;2002年06期
相关会议论文 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
3 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
4 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
7 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
8 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
9 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
10 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
相关重要报纸文章 前10条
1 焦艳玲;枫叶之都告百度恶意排名[N];市场报;2007年
2 郭京霞;百度胜诉搜索引擎排名纠纷案[N];中国企业报;2007年
3 李一鑫;搜索排名的红与黑[N];财经时报;2007年
4 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
5 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
6 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
7 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
8 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
9 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
10 本报记者 赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
相关博士学位论文 前10条
1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
2 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
3 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
6 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
7 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 郑文良;基于简单本体的农业P2P搜索引擎关键技术研究[D];沈阳农业大学;2013年
10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
相关硕士学位论文 前10条
1 刘青伟;搜索引擎中的Pagerank排序算法研究分析[D];电子科技大学;2010年
2 宗宝琴;基于自然语言理解的智能检索接口技术的研究及其应用[D];河北科技大学;2011年
3 王珍;维、哈、柯文搜索引擎中的自动分类技术研究[D];新疆大学;2010年
4 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年
5 闻峥;基于Lucene的搜索引擎优化[D];北京交通大学;2011年
6 李珏伶;搜索引擎网页相关性评估方法设计及其在rank模型上的应用[D];北京交通大学;2011年
7 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年
8 金祖旭;基于用户反馈的搜索引擎排名算法研究[D];复旦大学;2010年
9 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
10 梁萍;搜索引擎中网络爬虫及结果聚类的研究与实现[D];中国科学技术大学;2011年