当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于垂直主题搜索的交通术语相似性比对研究

发布时间:2018-07-14 15:48
【摘要】:各研究领域内的名词和标准术语之间的相似度计算,是开展各个专业领域内的数据挖掘、自然语言处理的前提和基础。Web-PMI是一种基于搜索引擎的命中数计算术语相似度的算法,利用搜索引擎对术语检索的返回命中数就可以对术语对的相似性进行量化地计算。但基于大型的通用搜索引擎对特定的领域限定术语检索命中数不足,这往往对术语的相似度计算造成影响,本文旨在通过建立交通主题的垂直搜索引擎系统,提高术语检索命中效果,从而提高术语相似度的计算精度目的。 论文首先研究并实现了基于交通主题的垂直搜索引擎的构建。其主要工作是在交通领域内对包含交通术语的网页进行抓取,论文在开源爬虫程序Heritrix项目的架构下自主开发了交通主题的网页抓取程序,实现了交通主题限定的网页抓取。 其次完成了对抓取的网页信息进行格式解析,过滤掉网页中的冗余信息,构建了检索系统的索引库。本文建立的索引库是在开源Lucene条件下编写索引程序,对解析后的交通主题网页建立有序的索引,并能实现交通术语在索引库中的全文检索,检索后返回术语在索引库中具体的命中数值。 最后利用Web-PMI算法进行交通标准术语的相似度计算的实验,在算法中重新构造了基于交通术语的检索式,,加入检索运算符,减少检索结果中的歧义发生,提高检索结果的领域相关度,提升算法效果。对实验结果进行分析,改进后检索式提升了术语的检索命中数,消除了一定的术语偶然共现情况对术语相似度计算的效果影响。 本文提出的方法,在“交通信息一致性检测研究”项目中进行了应用,应用结果证明,基于本文建立的交通垂直主题的搜索引擎系统,对交通领域内的生僻术语进行相似度计算时能起到很好效果,较商业搜索引擎Alta Vista的计算准确率也略高。本文提出的方法也同样适用于其他专业领域内术语相似度计算,同时也可对术语标准化、识别同义词与近义词、语义检索、术语标准类比检测等方面的工作进行有效地支持。
[Abstract]:The similarity calculation between the nouns and the standard terms in each field is to carry out data mining in various professional fields. The premise and foundation of Natural Language Processing is an algorithm based on the number of terms of the hit number of the search engine to calculate the similarity of terms. The number of return hits by the search engine for the term retrieval can be used for the terminology. The similarity is quantified. However, based on a large general search engine, the number of terminology is limited to a specific domain, which often affects the similarity calculation of terms. This paper aims to improve the effect of terminology retrieval by establishing a vertical search engine system for traffic topics to improve the terms similarity. The purpose of precision is to be calculated.
The thesis first studies and realizes the construction of vertical search engine based on traffic theme. Its main work is to grab web pages containing traffic terms in the field of traffic. The paper develops the web crawling program of traffic subject under the framework of Heritrix project of open source crawler program. Take.
Secondly, the web page information was formatted and the redundant information was filtered out, and the index library of the retrieval system was constructed. The index library established in this paper is to write the index program under the condition of open source Lucene, to establish an orderly search for the parsed traffic topic web page, and to realize the full text of the traffic terms in the index library. Retrieves and retrieves the specific hit number of the term in the index base.
Finally, we use the Web-PMI algorithm to carry out the experiment of similarity calculation of traffic standard terms. In the algorithm, the retrieval formula based on traffic terms is re constructed, and the retrieval operator is added to reduce the occurrence of ambiguity in the retrieval results, improve the domain correlation of the retrieval results and improve the effect of the algorithm. The experimental results are analyzed and the improved retrieval formula is proposed. The retrieval number of terminology is increased, and the effect of term coincidence on the computation of terminology similarity is eliminated.
The method proposed in this paper is applied to the "traffic information consistency detection research" project. The application results show that the search engine system based on the traffic vertical theme based on this paper can play a very good effect on the similarity calculation of the unsocial terminology in the traffic field, compared with the calculation accuracy of the commercial search engine Alta Vista. The method proposed in this paper is also applicable to the calculation of terminology similarity in other specialized fields, and it can also effectively support the work of terminology standardization, identification of synonyms and synonyms, semantic retrieval, and Terminology Standard analogical detection.
【学位授予单位】:长安大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1;U11-61

【参考文献】

相关期刊论文 前10条

1 吴伟;陈建峡;;基于Heritrix的web信息抽取优化与实现[J];湖北工业大学学报;2012年02期

2 付年钧;彭昌水;王慰;;中文分词技术及其实现[J];软件导刊;2011年01期

3 刘淑梅;夏亮;许南山;;主题搜索引擎网络爬虫搜索策略的研究与实现[J];计算机系统应用;2010年03期

4 孟祥成;;基于Lucene和Heritrix技术搜索引擎的设计与实现[J];中国现代教育装备;2010年03期

5 陈兰;金远平;;基于本体的垂直搜索引擎研究[J];计算机应用与软件;2009年11期

6 周薇;;常用中文搜索引擎的应用、分析和比较[J];图书情报工作;2009年S1期

7 邹永斌;陈兴蜀;王文贤;;基于贝叶斯分类器的主题爬虫研究[J];计算机应用研究;2009年09期

8 马费成;望俊成;吴克文;邱璇;;国外搜索引擎检索效能研究述评[J];中国图书馆学报;2009年04期

9 周程远;朱敏;杨云;;基于词典的中文分词算法研究[J];计算机与数字工程;2009年03期

10 张贤;周娅;;基于Lucene网页排序算法的改进[J];计算机系统应用;2009年02期

相关硕士学位论文 前6条

1 李新友;信息检索中的查询扩展技术研究[D];广西师范大学;2010年

2 谢冬松;基于Web的主题搜索应用技术研究[D];黑龙江大学;2007年

3 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年

4 许顺;中文分词规范可计算化的研究与实现[D];苏州大学;2006年

5 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年

6 王亮;搜索引擎及其相关性排序研究[D];武汉大学;2004年



本文编号:2122141

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2122141.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e88dc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com