当前位置:主页 > 科技论文 > 搜索引擎论文 >

一种基于双数组Trie的B2B规则串提取方法

发布时间:2019-05-20 07:01
【摘要】:针对B2B垂直搜索引擎中提取产品规格信息困难的问题,提出了一种基于双数组Trie(Double-Array Trie)的规则串提取方法。该方法针对B2B系统中"参数名:参数值"字符串的规则特征构建规则串,生成双数组Trie树;并优先处理分支结点最多的子树,来提高存储效率。该方法对搜索文本进行一次扫描就能得到所有规则串;通过在规则中加入约束条件,对候选串进行有效过滤,以提高规则串的提取准确率。实验表明,该方法能够降低传统规则串查找的算法复杂度,查找规则串的时间复杂度是O(n)。
[Abstract]:In order to solve the problem that it is difficult to extract product specification information from B2B vertical search engine, a rule string extraction method based on double array Trie (Double-Array Trie) is proposed. In this method, the rule string is constructed according to the rule characteristics of "parameter name: parameter value" string in B2B system, and the double array Trie tree is generated, and the subtree with the most branch nodes is given priority to improve the storage efficiency. In this method, all the rule strings can be obtained by scanning the search text once, and the candidate strings can be filtered effectively by adding constraints to the rules in order to improve the extraction accuracy of the rule strings. The experimental results show that this method can reduce the complexity of the traditional rule string search algorithm, and the time complexity of the rule string search is O (n).
【作者单位】: 北京科技大学计算机与通信工程学院知识工程研究所;
【基金】:国家自然科学基金项目(61175048,60875029) 科技部创新方法工作专项项目(2010IM020900)资助
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 周作涛;;垂直搜索在电子商务中的应用分析[J];陕西理工学院学报(自然科学版);2008年03期

2 孙玲芳;黎维良;;基于定题爬虫的网页分类的多级判定算法[J];科学技术与工程;2009年18期

3 赵宏中;李亚;;垂直搜索引擎应用研究[J];现代商贸工业;2010年04期

4 刘金亮;苏琳;石云;;基于Nutch的垂直搜索技术研究[J];电脑知识与技术;2011年24期

5 孔祥春;李义杰;郑凯明;;垂直搜索引擎应用研究[J];计算机系统应用;2009年07期

6 刘运强;;垂直搜索引擎的研究与设计[J];计算机应用与软件;2010年07期

7 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期

8 燕苗;;搜索引擎技术研究与发展[J];科技传播;2011年10期

9 冯蕾;;九城集团闪电收购雅蜂网 B2B市场竞争达到白热化[J];电子商务;2007年05期

10 郑如滨;撒力;谢婷;;基于Heritrix与Lucene的垂直搜索引擎研究[J];电脑知识与技术;2008年29期

相关会议论文 前8条

1 周明;刘晓华;蒋龙;Matt Scott;;利用网络挖掘技术建立英语学习平台[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

2 郭莉;刘燕兵;谭建龙;;基于存储压缩的多模式串匹配算法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

3 刘源;詹舒波;;基于Solr的行业垂直搜索平台的研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年

4 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年

5 刘悦;许洪波;程学旗;;互联网挖掘和搜索的研究进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

6 孙亚夫;常峰;;本地搜索服务的结构设计与关键技术[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集(下册)[C];2006年

7 付瑞吉;秦兵;刘挺;;面向音乐领域的文本检索与挖掘系统[A];第五届全国青年计算语言学研讨会论文集[C];2010年

8 郭瑞杰;程学旗;许洪波;张刚;王斌;;FirteX—高性能全文索引和检索平台[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

相关重要报纸文章 前10条

1 殷林;“垂直搜索”将成就电子商务新天地[N];中国商报;2007年

2 蒋文;帮海外买家筛选中国供应商[N];中国经营报;2006年

3 张艳红;微软涉足保健行业[N];中国企业报;2007年

4 陆贵兴;视频搜索暗潮涌动[N];计算机世界;2006年

5 康威;互联网将更社区化[N];计算机世界;2007年

6 王一;无线搜索的技术崇拜[N];通信产业报;2007年

7 陈翔;用友移动商街新年锁定500万用户[N];中国计算机报;2008年

8 罗添;微软CEO否认再度全盘收购雅虎[N];北京商报;2008年

9 王泽蕴邋李琨;IBM院士王云:数据库的下一代技术一点也不炫[N];中国计算机报;2007年

10 本报记者 魏建玲邋李晓丽;雅虎营销:用户第一,客户第二[N];国际商报;2007年

相关博士学位论文 前1条

1 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年

相关硕士学位论文 前10条

1 易平;生活服务行业垂直搜索的设计与实现[D];暨南大学;2010年

2 王振华;档案领域垂直搜索技术的研究与实现[D];东华大学;2011年

3 史磊峰;移动垂直搜索系统的研究[D];北京交通大学;2010年

4 邬亚文;威客垂直搜索系统的设计与实现[D];华南理工大学;2010年

5 王晶;基于垂直搜索技术的竞争情报采集系统的设计与实现[D];上海交通大学;2011年

6 雷洪;一个垂直搜索系统的设计与实现[D];中山大学;2012年

7 李涛;垂直搜索的算法研究[D];山东科技大学;2011年

8 陶秋红;中文垂直搜索技术的研究与实现[D];河北科技大学;2012年

9 安增文;垂直搜索中信息属性抽取和分类模型研究与实现[D];中国石油大学;2010年

10 仇亚东;面向农业领域的垂直搜索技术的研究[D];南京农业大学;2010年



本文编号:2481453

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2481453.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a790b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com