当前位置:主页 > 科技论文 > 信息工程论文 >

英文文本中命名实体识别及关系抽取技术研究

发布时间:2016-09-01 13:16

  本文关键词:面向搜索引擎的自然语言处理关键技术研究,由笔耕文化传播整理发布。


《华东理工大学》 2012年

英文文本中命名实体识别及关系抽取技术研究

李阳  

【摘要】:命名实体间语义关系抽取是文本信息抽取中的关键步骤,是语义识别的重要研究方向。随着互联网对人们生活、学习、工作等各个方面的不断加深的影响,从自由文本及互联网网页中抽取出有用的结构化信息具有非常重要的意义;随着自然语言处理技术和机器学习技术的不断发展和成熟,人们已经可以从互联网中抽取出结构化信息甚至知识。 本文介绍了信息抽取系统的特点及其广泛应用,然后进一步分析了命名实体识别和实体关系抽取的特点和研究进展。在对现有信息抽取系统的研究基础上,本文基于Spring和Struts,利用GATE和WordNet,构建了一个命名实体识别与关系抽取系统,并对抽取结果进行了可视化处理。该系统具有良好的扩展性、易用性,可以作为组件集成到其它信息系统中,有较高的应用价值。 此外,在关系抽取方法选择上,本文设计了基于“依赖动词”、“核心介词”、“所有格”这三种算法来实现关系抽取。利用词性、语法解析结构等语义特征,使得系统可以处理共指消解等较复杂状况。实验结果表明,本文提出的算法提高了实体识别与关系抽取的准确性,取得了良好的效果,而且系统使用了基于Java的Web框架来构建,使系统具有了方便移植的特点。

【关键词】:
【学位授予单位】:华东理工大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前10条

1 奚斌;周国栋;钱龙华;潘珅;;基于分层策略的弱指导语义关系抽取[J];广西师范大学学报(自然科学版);2008年01期

2 张玥杰;徐智婷;薛向阳;;融合多特征的最大熵汉语命名实体识别模型[J];计算机研究与发展;2008年06期

3 王苑;徐德智;陈建二;;复杂中文文本的实体关系抽取研究[J];计算机科学;2009年08期

4 薛为民,石志国,王志良;基于隐马尔可夫模型的复杂数据挖掘实现[J];计算机工程;2003年09期

5 何海芸,包云岗,袁春风;领域概念语义关系类型的半自动提取技术[J];计算机工程;2005年18期

6 邓擘;樊孝忠;杨立公;;用语义模式提取实体关系的方法[J];计算机工程;2007年10期

7 何召卫;陈俊亮;;基于本体关系匹配的信息抽取[J];计算机工程;2007年21期

8 吴刚;张阔;李涓子;王克宏;;利用相互增强关系迭代计算本体中概念与关系的重要性[J];计算机学报;2007年09期

9 王丹;樊兴华;;面向短文本的命名实体识别[J];计算机应用;2009年01期

10 胡熠;陆汝占;刘慧;;面向信息检索的概念关系自动构建[J];中文信息学报;2007年05期

中国博士学位论文全文数据库 前1条

1 钱龙华;命名实体间语义关系抽取研究[D];苏州大学;2009年

中国硕士学位论文全文数据库 前2条

1 徐东兴;基于Gate框架的信息抽取系统的研究与实现[D];华东师范大学;2007年

2 史玉翡;用于信息抽取的自动标注技术研究[D];大连海事大学;2010年

【共引文献】

中国期刊全文数据库 前10条

1 于璐;;本体化可信完整性度量策略匹配模型[J];信息安全与技术;2011年04期

2 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期

3 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期

4 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期

5 李绍英;;基于代理技术的比较购物研究[J];当代经理人;2006年10期

6 孙铁利;教巍巍;刘淑华;;Web-Based Information Extraction Technology[J];Journal of Donghua University(English Edition);2007年02期

7 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期

8 刘军;;基于支持向量机的网页主题信息提取算法[J];电脑知识与技术(学术交流);2007年02期

9 李向阳,陆建江,张亚非;基于竞争分类的Web信息抽取[J];电子学报;2004年11期

10 柳佳刚;刘高嵩;贺令亚;陈山;;基于Web的信息抽取技术现状与发展[J];福建电脑;2007年07期

中国重要会议论文全文数据库 前10条

1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年

2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年

3 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年

4 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年

5 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

6 费玉莲;凌云;王勋;;基于增强隐马尔可夫模型的视频数据挖掘研究[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年

7 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年

8 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

9 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

10 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

中国博士学位论文全文数据库 前10条

1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年

2 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年

3 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年

4 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年

5 龙华;定义问答检索关键技术研究[D];重庆大学;2010年

6 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年

7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

8 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年

9 朱倩;面向自由文本的细粒度关系抽取的关键技术研究[D];江苏大学;2011年

10 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年

中国硕士学位论文全文数据库 前10条

1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年

2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年

3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年

4 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年

5 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年

6 李小红;基于自举的弱指导中文语义关系抽取研究[D];苏州大学;2010年

7 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年

8 杨晓东;中文命名实体识别及若干相关问题的研究[D];江苏大学;2010年

9 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年

10 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年

【二级参考文献】

中国期刊全文数据库 前10条

1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期

2 张俐,李晶皎,胡明涵,姚天顺;中文WordNet的研究及实现[J];东北大学学报;2003年04期

3 樊兴华;王鹏;;基于两步策略的中文短文本分类研究[J];大连海事大学学报;2008年03期

4 宋东风;张志浩;;短文本数据的自动分类[J];电脑与信息技术;2007年01期

5 徐建斌,施亚东;基于概念的文本自动分类研究的综述[J];福建电脑;2005年02期

6 陈晓明,周渝;基于知网的文本标注[J];贵州大学学报(自然科学版);2001年03期

7 陈少飞,郝亚南,李天柱,徐林昊,杨文柱;Web信息抽取技术研究进展[J];河北大学学报(自然科学版);2003年01期

8 魏顺平;何克抗;;基于文本挖掘的领域本体半自动构建方法研究——以教学设计学科领域本体建设为例[J];开放教育研究;2008年05期

9 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期

10 李珩,朱靖波,姚天顺;基于Stacking算法的组合分类器及其应用于中文组块分析[J];计算机研究与发展;2005年05期

中国重要会议论文全文数据库 前1条

1 廖先桃;于海滨;秦兵;刘挺;;HMM与自动规则提取相结合的中文命名实体识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年

中国博士学位论文全文数据库 前1条

1 李锦姬;现代汉语补语研究[D];复旦大学;2003年

中国硕士学位论文全文数据库 前4条

1 魏庭新;现代汉语介词结构位置的考察及影响其位置的句法、语义因素分析[D];北京语言大学;2004年

2 王莹莹;汉语组块识别的研究[D];大连理工大学;2006年

3 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年

4 郭银蕊;基于遗传算法的Web信息抽取技术[D];大连海事大学;2009年

【相似文献】

中国期刊全文数据库 前10条

1 张晓艳;王挺;陈火旺;;基于混合统计模型的汉语命名实体识别方法[J];计算机工程与科学;2006年06期

2 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期

3 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期

4 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期

5 李桂兰;余正涛;毛存礼;郭剑毅;侯波;线岩团;;旅游领域实体答案的抽取[J];广西师范大学学报(自然科学版);2009年01期

6 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期

7 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期

8 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期

9 林旭东;彭宏;林丕源;邓健爽;;基于依存关系的问句理解与问句分类[J];计算机科学;2007年07期

10 许晓丽;卢志茂;张格森;;基于条件随机场的中文命名实体识别研究[J];中国新技术新产品;2009年02期

中国重要会议论文全文数据库 前10条

1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年

2 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年

3 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年

4 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年

5 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

6 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年

7 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

8 张祝玉;任飞亮;朱靖波;;基于条件随机场的中文命名实体识别特征比较研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

9 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年

10 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年

中国博士学位论文全文数据库 前10条

1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年

2 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年

3 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年

4 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年

5 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年

6 杨黎;面向生物医学文本的疾病关系挖掘模型及算法研究[D];华中科技大学;2013年

7 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年

8 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年

9 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年

10 陈慧;基于DCC动态流通语料库的中文组织名考察与研究[D];北京语言大学;2008年

中国硕士学位论文全文数据库 前10条

1 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年

2 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年

3 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年

4 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年

5 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年

6 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年

7 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年

8 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年

9 陈禹;基于语篇的中文命名实体识别研究[D];厦门大学;2008年

10 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年


  本文关键词:面向搜索引擎的自然语言处理关键技术研究,由笔耕文化传播整理发布。



本文编号:107663

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/107663.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9dd53***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com