当前位置:主页 > 社科论文 > 图书档案论文 >

基于多层语料库的短语结构标注及计算研究

发布时间:2022-07-29 14:05
  海量文本信息的增长给信息检索带来了极大的困难,当前的智能信息检索技术试图通过信息组织,将文本数据转化为机器可以存储、标引、提取的有序数据,同时通过主题法、分类法、主题分类一体化、知识描述框架、本体等方式对其进行深加工。但在这个过程中,主题法、分类法、本体等解决方案的构建需要花费大量的人力,也需要领域专家的介入。而通过将信息转化为数学的方式,如将检索与文档转化为向量,通过矩阵相似完成检索虽然在计算机上较易实现,但检索结果往往出现大量冗余。在这种情况下,对于信息检索的优化主要靠加权或考虑文档外部因素,如从引用角度上来进行改进就是常用方法之一。本文以语言学知识作为解决当前信息检索困境的新思路,将朱德熙先生的"词组本位"思想、Abney的chunk思想、陈小荷先生语法功能匹配思想、冯志伟先生对于术语语法构成的思想应用于科技文献检索,将短语语法功能知识引入信息检索。通过短语语法功能,在关键词、术语构成上可以从语法角度探讨各组成词汇之间的语法关系,而不是简单的以字面相似度或是各种加权后的值来进行匹配。关键词、术语之间关系将不再通过简单共现表现,而是通过语法功能附加新一层的语义信息。利用短语语法功能... 

【文章页数】:141 页

【学位级别】:博士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 研究背景
    1.2 研究意义
    1.3 研究内容
    1.4 创新之处
    1.5 章节安排
第2章 文献综述
    2.1 组块研究与短语树库
        2.1.1 转换生成语法及组块研究的出现
        2.1.2 短语树库研究
    2.2 现代句法理论及短语识别
        2.2.1 现代句法理论
        2.2.2 短语识别综述
    2.3 术语短语研究综述
    2.4 本章小结
第3章 基于多层语料短语知识获取
    3.1 语料基本情况
        3.1.1 清华树库
        3.1.2 宾州中文树库
        3.1.3 清华树库与宾州中文树库异同
    3.2 树库解析与存储
        3.2.1 预处理
        3.2.2 基本数据结构
    3.3 汉语短语基本分布获取
    3.4 汉语短语结构获取样例
    3.5 小规模CSSCI语料辅助标注及解析
    3.6 本章小结
第4章 基于树库的汉语短语分布研究
    4.1 树库内汉语短语分布
        4.1.1 树库内汉语短语分布
        4.1.2 树库内汉语基本短语分布
    4.2 清华树库短语成分分析
        4.2.1 清华树库基本短语成分统计
        4.2.2 清华树库复杂短语成分统计
        4.2.3 清华树库述宾结构统计分析
    4.3 宾州树库短语成分分析
    4.4 CSSCI标注语料分析
        4.4.1 标注关键词短语分析
        4.4.2 标注标题短语分析
    4.5 本章小结
第5章 基于机器学习的汉语短语识别
    5.1 短语识别机器学习算法模型及模板
        5.1.1 最大熵模型
        5.1.2 条件随机场模型
        5.1.3 自动识别流程
    5.2 清华树库中汉语短语识别
        5.2.1 训练样本选择及语言学特征统计
        5.2.2 基于最大熵的汉语短语识别
        5.2.3 基于条件随机场的汉语短语识别
    5.3 宾州中文树库中汉语短语识别
        5.3.1 训练样本选择及语言学特征统计
        5.3.2 训练结果
    5.4 本章小结
第6章 面向CSSCI的汉语短语标注模型构建
    6.1 模型理论基础
        6.1.1 模型的语法理论基础
        6.1.2 模型的算法理论基础
        6.1.3 语料库基础
    6.2 CSSCI语料预处理与基本统计
    6.3 基于CSSCI短语词汇、词性统计及短语语法功能分析
    6.4 基于CSSCI短语自动识别
    6.5 本章小结
第7章 结语
    7.1 结语
    7.2 未来工作
参考文献
附录
致谢


【参考文献】:
期刊论文
[1]数字图书馆知识组织体系构建的发展路径——概念格与本体的互补融合[J]. 毕强,鲍玉来.  华中师范大学学报(人文社会科学版). 2011(05)
[2]基于条件随机场的介宾结构自动识别[J]. 朱丹浩,王东波,谢靖.  现代图书情报技术. 2010(Z1)
[3]基于最大熵的汉语介词短语识别研究[J]. 卢朝华,黄广君,郭志兵.  通信技术. 2010(05)
[4]术语形成的经济律——FEL公式[J]. 冯志伟.  中国科技术语. 2010(02)
[5]词组型术语结构的自动句法剖析[J]. 冯志伟.  中国科技术语. 2009(05)
[6]单词型术语的结构自动分析[J]. 冯志伟.  中国科技术语. 2009(03)
[7]一个新兴的术语学科——计算术语学[J]. 冯志伟.  术语标准化与信息技术. 2008(04)
[8]基于语法功能匹配的汉语句法分析算法[J]. 卢俊之,陈小荷,王东波,陈锋.  计算机工程与应用. 2008(16)
[9]基于树库的现代汉语短语分布考察[J]. 陈锋,陈小荷.  语言科学. 2008(01)
[10]语义Web中的本体推理研究[J]. 李永超,罗钧旻.  计算机技术与发展. 2007(01)

博士论文
[1]基于本体知识库推理的语义搜索研究[D]. 文坤梅.华中科技大学 2007
[2]现代汉语实词语法功能考察及词类体系重构[D]. 徐艳华.南京师范大学 2006
[3]基于词汇化统计模型的汉语句法分析研究[D]. 曹海龙.哈尔滨工业大学 2006
[4]面向中文信息处理的现代汉语短语结构规则研究[D]. 詹卫东.北京大学 1999

硕士论文
[1]基于语法功能匹配的句法分析算法[D]. 卢俊之.南京师范大学 2008
[2]有标记联合结构的自动识别[D]. 王东波.南京师范大学 2008
[3]汉语复句关系自动判定研究[D]. 洪鹿平.南京师范大学 2008
[4]基于本体技术的语义检索及其语义相似度研究[D]. 邹文科.北京邮电大学 2008



本文编号:3666599

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/3666599.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户eb021***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com