当前位置:主页 > 社科论文 > 图书档案论文 >

《南京大学》2011年硕士论文

发布时间:2016-06-18 18:06

  本文关键词:图情档术语自动提取研究,由笔耕文化传播整理发布。


《南京大学》 2011年

图情档术语自动提取研究

顾铖  

【摘要】:国内开展的术语自动提取方面的研究都未以期刊论文的摘要为语料,而摘要作为一篇期刊论文概要性的陈述,其中包含了大量该学科领域内的术语,应当作为开展术语自动提取研究的重要语料。因此,本文希望通过对图书、情报和档案学领域内的期刊论文摘要,分别利用互信息和条件随机场模型进行术语自动提取方面的研究。 本文首先介绍了研究的背景和意义,总结了术语自动提取的研究现状,明确了研究的基础,并给出了全文的框架结构。在第二章的部分介绍了术语的相关概念,以及术语的特征,包括领域特征和结构特征等等。 然后本文对术语的表现特征、同义术语以及术语前后界进行统计分析。术语的表现特征中包括术语词频、术语词性序列以及术语词性词频;同义术语是通过利用编辑距离的方法统计得出;术语的前后界是通过统计出现在术语之前或者之后的词而得到。这些对术语特征的考察一方面为从语言学角度量化的研究术语内部提供了数据,另一方面也为之后的实验提供了语言学的知识。 接着开展了基于互信息的术语自动提取方面的研究,介绍了互信息理论以及预处理的过程,实验主要是以二元词和三元词为考察对象,依据互信息计算公式,计算词语内部的关联程度,并设定不同的阈值,对结果进行统计。在首次实验结果不理想的情况下,对语料作进一步处理,第二次实验中准确率有了大幅度的提升,二元词和三元词的最高值分别达到了58.555%和58.814%。虽然在改进后,提取效果有所提高,但仍然不够理想,造成这种情况的原因在于基于统计的方法本身的局限性。 最后开展了基于条件随机场的术语自动提取方面的研究,介绍了条件随机场模型、预处理的过程以及特征和特征模板的确定,分别用原子特征模板、增加了词性特征的特征模板以及增加了语言学特征的特征模板对基于字的和基于词的语料进行了实验,4轮实验的平均F值分别为91.927%、90.311%、90.681%和90.6818%。这说明基于条件随机场的术语自动提取效果要优于基于互信息的方法。

【关键词】:
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:G250
【目录】:

  • 摘要4-6
  • Abstract6-10
  • 第一章 引言10-18
  • 1.1 研究背景及意义10-12
  • 1.2 术语自动提取的研究现状12-15
  • 1.2.1 基于规则的方法12-13
  • 1.2.2 基于统计的方法13-14
  • 1.2.3 基于规则与统计结合的方法14-15
  • 1.2.4 基于机器学习的方法15
  • 1.3 研究基础15-16
  • 1.4 主要工作及本文组织16-18
  • 第二章 术语相关概念18-22
  • 2.1 术语的概念18
  • 2.2 术语的特征18-20
  • 2.2.1 术语的领域特征18-19
  • 2.2.2 术语的结构特征19-20
  • 2.2.3 术语的单元性与术语性20
  • 2.3 本章小结20-22
  • 第三章 特征统计分析22-29
  • 3.1 术语的表现特征22-25
  • 3.1.1 术语词频22-23
  • 3.1.2 术语词性序列23-24
  • 3.1.3 术语词性词频24-25
  • 3.2 同义术语25-26
  • 3.3 术语的前后界26-27
  • 3.4 本章小结27-29
  • 第四章 基于互信息的术语自动提取29-34
  • 4.1 信息理论29
  • 4.2 预处理29-30
  • 4.3 实验结果与分析30-33
  • 4.4 本章小结33-34
  • 第五章 基于条件随机场的术语自动提取34-43
  • 5.1 条件随机场模型34-35
  • 5.2 预处理35-36
  • 5.3 特征以及特征模板的确定36-38
  • 5.4 实验结果与分析38-42
  • 5.4.1 基于字的术语自动提取实验38-40
  • 5.4.2 基于词的术语自动提取实验40-42
  • 5.5 本章小结42-43
  • 第六章 结语43-45
  • 参考文献45-49
  • 致谢49-50
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【参考文献】

    中国期刊全文数据库 前10条

    1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期

    2 张锋;樊孝忠;许云;;Chinese Term Extraction Based on PAT Tree[J];Journal of Beijing Institute of Technology(English Edition);2006年02期

    3 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期

    4 苏意玲;;基于机器学习的本体匹配的研究[J];福建电脑;2009年08期

    5 索红光;杨涛;;基于互信息的Web文档聚类方法[J];广西师范大学学报(自然科学版);2007年02期

    6 张文静;梁颖红;;术语抽取技术研究[J];信息技术;2008年03期

    7 于江德;樊孝忠;尹继豪;;基于条件随机场的中文科研论文信息抽取[J];华南理工大学学报(自然科学版);2007年09期

    8 金春霞;周海岩;;基于机器学习的Web文本分类技术及算法[J];长春工业大学学报(自然科学版);2009年03期

    9 赵正文;康耀红;;统计语言模型在信息检索中的应用[J];计算机工程与应用;2006年36期

    10 贾美英;杨炳儒;郑德权;杨靖;;采用CRF技术的军事情报术语自动抽取研究[J];计算机工程与应用;2009年32期

    中国硕士学位论文全文数据库 前6条

    1 刘建舟;术语自动抽取系统的设计及关键技术研究[D];华中师范大学;2004年

    2 张勇;中文术语自动抽取相关方法研究[D];华中师范大学;2006年

    3 王东波;有标记联合结构的自动识别[D];南京师范大学;2008年

    4 罗准辰;关键词抽取的研究与实现[D];国防科学技术大学;2008年

    5 张二艳;术语自动抽取技术研究[D];哈尔滨工业大学;2009年

    6 马志斌;特定领域术语自动抽取方法的研究[D];哈尔滨工业大学;2009年

    【共引文献】

    中国期刊全文数据库 前10条

    1 梁峰;金莹;;基于Agent技术的语义网服务模型[J];安徽广播电视大学学报;2008年01期

    2 陶皖,李平,廖述梅;当前基于本体的语义标注工具的分析[J];安徽工程科技学院学报(自然科学版);2005年02期

    3 赵秀芳;;基于本体的农业信息检索[J];安徽农业科学;2006年10期

    4 蔡曈;徐惠;吴群;;土壤质量聚类分析——以封丘县为例[J];安徽农业科学;2008年25期

    5 周琼;黄河;;基于百度百科的农业专业词汇自动获取方法研究[J];安徽农业科学;2009年14期

    6 薛荟;谭三清;;林业应用系统本体知识模型的构建方法研究[J];现代农业科技;2011年07期

    7 谷川;田喜平;;基于条件随机场的汉语词性标注方法研究[J];安阳师范学院学报;2010年05期

    8 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期

    9 李善飞;鲁延京;杨克巍;谭跃进;;武器装备体系能力形式化描述研究[J];兵工自动化;2010年02期

    10 黄洪;刘增良;余达太;周绍华;;一种具有免疫特征的智能数据分类分级模型[J];兵工学报;2010年12期

    中国重要会议论文全文数据库 前10条

    1 李贵;张兆鑫;李征宇;韩子洋;;WEB环境下基于领域本体的语义匹配技术研究[A];科学发展与社会责任(A卷)——第五届沈阳科学学术年会文集[C];2008年

    2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

    3 李伟刚;张克亮;王慧兰;;基于航空领域本体知识库的语义检索研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

    4 王建州;李廉;汪映海;;面向Ontology的电力信息系统的研究[A];2005年信息与通信领域博士后学术会议论文集[C];2005年

    5 刘建毅;王菁华;王枞;;领域语义语法的统计生成[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年

    6 郑笈;李思昆;陆筱霞;;大规模场景绘制的存储数据调度组织研究[A];节能环保 和谐发展——2007中国科协年会论文集(一)[C];2007年

    7 杨昆;王军;彭双云;;基于Ontology的空间信息互操作初步研究[A];中国地理信息系统协会第八届年会论文集[C];2004年

    8 史东娜;王枞;李卫;;车牌识别领域的中文术语自动抽取[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年

    9 范志煜;肖兵;沈薇薇;;基于概率本体的态势估计应用研究[A];中国自动化学会中南六省(区)2010年第28届年会·论文集[C];2010年

    10 贾凌燕;陆一平;;浅谈ontology方法及其发展[A];全国先进制造技术高层论坛暨制造业自动化、信息化技术研讨会论文集[C];2005年

    中国博士学位论文全文数据库 前10条

    1 卜志国;海洋生态环境监测系统数据集成与应用研究[D];中国海洋大学;2010年

    2 熊晶;海洋生态本体的建模方法研究及应用[D];中国海洋大学;2010年

    3 张俐;面向概念设计方案选择的协同决策方法研究[D];华中科技大学;2010年

    4 韩赟;高技术虚拟企业(HTVE)知识管理模式研究[D];哈尔滨理工大学;2009年

    5 王亚萍;需求驱动的个性化产品配置设计方法研究[D];哈尔滨理工大学;2010年

    6 游颖;客车信息集成控制系统配置设计中的分解技术研究[D];武汉理工大学;2010年

    7 连莉;本体中非分类关系的理论体系研究[D];山东大学;2010年

    8 魏巍;定制产品智能重组设计关键技术与方法研究及其应用[D];浙江大学;2010年

    9 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年

    10 王德鑫;四路摄像头协同多重触控技术研究与实现[D];国防科学技术大学;2010年

    中国硕士学位论文全文数据库 前10条

    1 厉颖;基于本体的服装领域知识表示的建模研究[D];山东科技大学;2010年

    2 吕媛媛;基于本体的物流信息集成系统的研究[D];山东科技大学;2010年

    3 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年

    4 许坤;基于本体的应急信息管理系统的研究与设计[D];郑州大学;2010年

    5 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年

    6 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年

    7 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年

    8 刘海娇;基于魔力平台的需求分析系统的研究与实现[D];哈尔滨工程大学;2010年

    9 杜娟;基于语义网格的知识地图资源组织研究与应用[D];哈尔滨工程大学;2010年

    10 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年

    【二级参考文献】

    中国期刊全文数据库 前10条

    1 许勇;宋柔;;基于半CRF模型的百科全书文本段落划分[J];北京工业大学学报;2008年02期

    2 朱靖波,张玫杰,姚天顺;一种基于NA假设的训练数据自动构造方法[J];东北大学学报;1999年04期

    3 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期

    4 吴云芳;;并列成分中心语语义相似性考察[J];当代语言学;2005年04期

    5 马颖华,王永成,苏贵洋;一种在汉语文本中抽取重复字串的快速算法[J];电子学报;2002年S1期

    6 林亚平,刘云中,周顺先,陈治平,蔡立军;基于最大熵的隐马尔可夫模型文本信息抽取[J];电子学报;2005年02期

    7 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期

    8 刘桃;刘秉权;徐志明;王晓龙;;领域术语自动抽取及其在文本分类中的应用[J];电子学报;2007年02期

    9 刘远超;王晓龙;徐志明;刘秉权;;基于粗集理论的中文关键词短语构成规则挖掘[J];电子学报;2007年02期

    10 张仰森,徐波,曹元大;自然语言处理中的语言模型及其比较研究[J];广西师范大学学报(自然科学版);2003年01期

    中国重要会议论文全文数据库 前2条

    1 张普;;流通度在IT术语识别中的应用分析——关于术语、术语学、术语数据库的研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年

    2 李芸;王强军;张普;;信息技术领域术语自动提取和动态更新研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年

    中国博士学位论文全文数据库 前3条

    1 马清华;并列结构的自组织研究[D];华东师范大学;2004年

    2 邓云华;汉语联合短语的类型和共性研究[D];湖南师范大学;2004年

    3 徐艳华;现代汉语实词语法功能考察及词类体系重构[D];南京师范大学;2006年

    中国硕士学位论文全文数据库 前7条

    1 高建忠;汉语动宾搭配的自动识别研究[D];北京语言文化大学;2000年

    2 刘建舟;术语自动抽取系统的设计及关键技术研究[D];华中师范大学;2004年

    3 陈晴;基于条件随机场的自动分词技术的研究[D];东北大学;2005年

    4 于浚涛;基于最大熵的汉语介词短语自动识别[D];大连理工大学;2006年

    5 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年

    6 钱小飞;含“的”最长名词短语的自动识别[D];南京师范大学;2007年

    7 王香港;中文文本自动分类算法研究[D];上海交通大学;2008年

    【相似文献】

    中国期刊全文数据库 前1条

    1 祁跃林;;关于图情事业转变发展方式的思考(上)——以云南省文献信息资源建设与发展为例[J];农村实用技术;2010年02期

    中国重要会议论文全文数据库 前3条

    1 袁丽文;刘伟;;国防科技图书馆学科馆员队伍建设的思考[A];中国图书馆学会专业图书馆分会2009年学术年会论文集[C];2009年

    2 何玮;;开展和深化学科化信息服务之我见[A];中国图书馆学会专业图书馆分会2009年学术年会论文集[C];2009年

    3 吴宝亮;冉克梅;;以馆藏为核心的高校图书馆管理[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年

    中国重要报纸全文数据库 前5条

    1 本报记者 马子雷;[N];中国文化报;2011年

    2 记者 殷燕召;[N];光明日报;2010年

    3 记者 马子雷;[N];中国文化报;2010年

    4 本报记者 舒琳;[N];中国文化报;2010年

    5 黄善蓉 记者 张莉琴;[N];泸州日报;2011年

    中国硕士学位论文全文数据库 前9条

    1 林晶靓;基于领域本体的图情博客语义搜索系统研究[D];南京农业大学;2010年

    2 李品;我国国情研究国际化发展评价指标与策略研究[D];江苏大学;2010年

    3 陈必坤;基于Nutch的图情博客搜索引擎的设计与实现[D];郑州大学;2011年

    4 李亚芳;学术型开放存取期刊的质量评估[D];山西大学;2012年

    5 王红;我国图书情报学科研究热点分析(1998-2007)[D];河南科技大学;2009年

    6 陈曙光;我国图书馆职业资格认证制度研究[D];黑龙江大学;2009年

    7 胡群;高校图书馆信息共享空间模型设计及实例分析[D];山东理工大学;2010年

    8 张芳;中学图书馆员职业承诺与心理健康的状况及其关系研究[D];福建师范大学;2009年

    9 周莹;云南省临沧市开展情报服务及研究工作的现状分析[D];云南大学;2013年


      本文关键词:图情档术语自动提取研究,由笔耕文化传播整理发布。



    本文编号:58846

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/tushudanganlunwen/58846.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户cd8de***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com