当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于并列结构的概念实例和属性的同步提取方法

发布时间:2018-06-30 04:16

  本文选题:并列结构 + 搜索引擎 ; 参考:《中文信息学报》2012年02期


【摘要】:在概念实例和属性的提取研究中,针对基于模式的方法召回率比较低的特点,该文提出了一种基于并列结构的概念实例和属性的同步提取方法。首先利用并列结构模式去网页集合中提取同类词语集合,然后再用基于种子的弱指导方法去学习实例和属性共现的上下文模式,最后再通过模式去提取候选实例或候选属性。在此过程中,每提取出一个候选,就将该候选所在的同类词语集合合并到候选集合中。实验结果表明,该文的方法在不降低准确率的基础上,能大大提高提取结果的召回率。
[Abstract]:In the research of concept instance and attribute extraction, this paper proposes a synchronous extraction method of concept instance and attribute based on parallel structure, in view of the low recall rate of pattern based method. The paratactic structure pattern is first used to extract the similar word set from the web page set, then the seed based weak guidance method is used to learn the contextual pattern of instance and attribute co-occurrence, and finally, the candidate instance or candidate attribute is extracted by the schema. In this process, each candidate is extracted, and the set of similar words in which the candidate is located is merged into the candidate set. The experimental results show that the method proposed in this paper can greatly improve the recall rate of the extraction results without reducing the accuracy.
【作者单位】: 北京大学计算语言学研究所;北京大学计算语言学教育部重点实验室;
【基金】:国家自然科学基金(60873156、61075067) 国家社会科学基金(09BYY032)
【分类号】:TP391.7

【相似文献】

相关期刊论文 前10条

1 ;第四届全国搜索引擎和网上信息挖掘学术研讨会(SEWM2006)在山东大学举行[J];山东大学学报(理学版);2006年03期

2 那罡;;移动搜索的“简单”逻辑[J];中国计算机用户;2006年26期

3 蔡建超;郭一平;王亮;;基于Lucene.Net校园网搜索引擎的设计与实现[J];计算机技术与发展;2006年11期

4 ;网络[J];电脑爱好者;2007年04期

5 ;使用搜索引擎的另类技巧[J];计算机与网络;2007年06期

6 孙成福;;网络搜索引擎的技巧与使用[J];福建电脑;2008年02期

7 杨志;;元数据在中文搜索引擎的应用研究[J];科技信息(科学教研);2008年09期

8 陈春阳;;对互联网搜索引擎的初步认识[J];硅谷;2009年10期

9 沈鑫;;如何“优+”搜索引擎账户[J];成功营销;2009年08期

10 钟晓;;自动分类在搜索引擎中的应用[J];福建电脑;2009年10期

相关会议论文 前10条

1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

2 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

3 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年

4 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年

5 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年

6 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年

7 陈磊;茹立云;马少平;;基于用户日志挖掘的搜索引擎广告效果分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

8 李文杰;穗志方;;基于并列结构的概念实例和属性的同步提取方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

9 申琪君;;电子地图搜索引擎比较[A];中国地理学会2007年学术年会论文摘要集[C];2007年

10 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年

相关重要报纸文章 前10条

1 博文邋译;你的隐私 搜索引擎知道[N];计算机世界;2007年

2 杨洁;搜索引擎营销市场生变[N];中国计算机报;2007年

3 刘文君;搜索引擎也在寻求创新[N];大众科技报;2007年

4 ;法国挑战谷歌推出卫星地图搜索引擎[N];人民日报;2006年

5 MirrorCity.net技术总监 姚浩;让搜索引擎回归最初梦想[N];中国文化报;2008年

6 本报记者 操秀英;国双科技以技术加服务赢得市场[N];科技日报;2009年

7 赵敏;“鱼群理论”破解搜索营销谜局[N];中国企业报;2007年

8 本报记者 樊哲高;搜索引擎三国纷争 中文市场两军对垒[N];中国电子报;2009年

9 EndTo;优化Meta讨好搜索引擎[N];电脑报;2009年

10 本报记者 马文方;Yebol:从思维科学导出搜索引擎[N];中国计算机报;2010年

相关博士学位论文 前10条

1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年

5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

8 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年

9 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年

10 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年

相关硕士学位论文 前10条

1 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年

2 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年

3 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年

4 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年

5 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年

6 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年

7 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年

8 张朝斌;企业级搜索引擎的优化设计与实现[D];华南理工大学;2010年

9 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年

10 闻峥;基于Lucene的搜索引擎优化[D];北京交通大学;2011年



本文编号:2084835

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2084835.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户00c41***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com