基于多统计方法级联的信息技术词语搭配抽取方法研究
发布时间:2021-04-04 21:10
汉语词语搭配的研究,目前正在不断深入。但目前专业领域的词语搭配研究并不多,这也是一个新的词语搭配抽取的研究方向。随着5G时代的到来,信息技术类的自然语言处理研究也即将更加深入。因此本文主要研究的信息技术类词语搭配,并用于信息技术知识库的搭建,也是信息技术类语言科学领域的一个重要研究方向。基于互信息和邻接熵的信息技术专业词语发现。由于本文研究的是信息技术类的词语搭配抽取方法。专业词汇是信息技术专业语境和通识语境的主要区别之一。信息技术专业词汇大多数是组合词,如果没有信息技术专业词表,容易造成切词错误,破坏组合词的结构,造成搭配抽取准确率低。传统的词语发现方法主要是基于词频和规则的方法,基于词频的方法容易造成抽取新词语边界错误和准确率低的问题。而基于规则的方法易出现规则频繁制定问题,工作量繁重且意义不大。本文采用互信息与邻接熵相结合的方法发现专业词汇,互信息可以表征词语和邻接字词之间结合的紧密度,邻接熵可以界定专业词语的边界,节省了制定规则的工作量,提高了发现专业词语的效率和准确率。基于多统计量级联的方式对信息技术词语搭配抽取方法。传统的词语搭配抽取的统计方法各自存在缺点,抽取的准确率及综...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
图3-1分词与词性标注
哈尔滨工业大学工程硕士学位论文-23-3.3.2信息技术专业词汇发现的实现信息技术专业词汇发现主要运用互信息和邻接熵来判断是否为本文所需的信息技术专业词汇,流程如图3-2。图3-2信息技术专业词汇发现流程图信息技术语料预处理主要是去除信息技术语料中的噪声。因为信息技术语料含有大量非本文所需要的标点、停用词、多余数字、非常见字符等噪声。首先将实验语料吧,按照上述标点、字符、停用词等进行切分并去除这类噪声。通过互信息生成候选专业词汇主要通过互信息来衡量相邻的字和中心词能够组成一个专业词汇的可能性。将信息技术语料重的语句按照语句顺序逐字扩展,将中心词和右边相邻的字的共现频率记录下来,若记录的词频高于指定值,则对这个中心词和相邻词进行互信息计算。若算出的值大于指定值,则判定这个中心词和右边相邻的字为一个词的组成部分,然后对右边的字用同样的方式记录互信息,到互信息的值小于指定值为止。记录停止计算后的词语,为信息技术专业词语候选词。经过互信息得到候选词汇以后,通过邻接熵筛选得到信息技术专业词语。需要设置信息技术候选专业词汇左右邻接词的邻接熵临界值,将大于
哈尔滨工业大学工程硕士学位论文-36-特征,还可以进行多组数据分布特征的比较。箱线图的绘制方法是:先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后,连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间。因此本文通过绘制箱线图和频率分布直方图进行数据分析。图4-1信息技术词语搭配以互信息筛选频率箱线图针对词频筛选出的30251对搭配进行MI值计算后,对MI值的统计结果绘制互信息的箱线图和频率分布图。观察并且分析图4-1和图4-2,可见MI值主要分布在[-2.4,15.00]间。图4-2信息技术词语搭配以互信息筛选频率分布图
【参考文献】:
期刊论文
[1]基于互信息和逻辑回归的新词发现[J]. 陈先来,韩超鹏,安莹,刘莉,李忠民,杨荣. 数据分析与知识发现. 2019(08)
[2]基于依存搭配抽取技术的平面媒体语言监测研究[J]. 邵艳秋,申资卓,刘世军. 山西大学学报(自然科学版). 2019(03)
[3]基于中文宾州树库的依存句法分析器的比较[J]. 杨振鹏. 太原城市职业技术学院学报. 2018(12)
[4]汉语复句中基于依存关系与最大熵模型的词义消歧方法研究[J]. 李源,翟宏森,刘凤娇,黄文灿,杨梦川. 计算机与数字工程. 2018(01)
[5]一种基于改进互信息的文本分类方法[J]. 董露露. 合肥师范学院学报. 2017(06)
[6]基于新词发现与知识库的微博命名实体识别研究——以教育话题为例[J]. 陈桂强. 经营管理者. 2017(11)
[7]基于词向量的评价搭配抽取算法研究[J]. 杨令铎,史海波,周晓锋. 小型微型计算机系统. 2016(10)
[8]基于改进互信息和邻接熵的微博新词发现方法[J]. 夭荣朋,许国艳,宋健. 计算机应用. 2016(10)
[9]基于共现词卡方值的关键词提取算法[J]. 时永宾,余青松. 计算机工程. 2016(06)
[10]基于上下文词频词汇量指标的新词发现方法[J]. 邢恩军,赵富强. 计算机应用与软件. 2016(06)
硕士论文
[1]Spark下MPI/GPU并行计算处理机制的研究[D]. 郑伟.中国海洋大学 2015
[2]现代汉语词语搭配的自动抽取方法[D]. 陈雅菊.华东师范大学 2006
本文编号:3118496
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
图3-1分词与词性标注
哈尔滨工业大学工程硕士学位论文-23-3.3.2信息技术专业词汇发现的实现信息技术专业词汇发现主要运用互信息和邻接熵来判断是否为本文所需的信息技术专业词汇,流程如图3-2。图3-2信息技术专业词汇发现流程图信息技术语料预处理主要是去除信息技术语料中的噪声。因为信息技术语料含有大量非本文所需要的标点、停用词、多余数字、非常见字符等噪声。首先将实验语料吧,按照上述标点、字符、停用词等进行切分并去除这类噪声。通过互信息生成候选专业词汇主要通过互信息来衡量相邻的字和中心词能够组成一个专业词汇的可能性。将信息技术语料重的语句按照语句顺序逐字扩展,将中心词和右边相邻的字的共现频率记录下来,若记录的词频高于指定值,则对这个中心词和相邻词进行互信息计算。若算出的值大于指定值,则判定这个中心词和右边相邻的字为一个词的组成部分,然后对右边的字用同样的方式记录互信息,到互信息的值小于指定值为止。记录停止计算后的词语,为信息技术专业词语候选词。经过互信息得到候选词汇以后,通过邻接熵筛选得到信息技术专业词语。需要设置信息技术候选专业词汇左右邻接词的邻接熵临界值,将大于
哈尔滨工业大学工程硕士学位论文-36-特征,还可以进行多组数据分布特征的比较。箱线图的绘制方法是:先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后,连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间。因此本文通过绘制箱线图和频率分布直方图进行数据分析。图4-1信息技术词语搭配以互信息筛选频率箱线图针对词频筛选出的30251对搭配进行MI值计算后,对MI值的统计结果绘制互信息的箱线图和频率分布图。观察并且分析图4-1和图4-2,可见MI值主要分布在[-2.4,15.00]间。图4-2信息技术词语搭配以互信息筛选频率分布图
【参考文献】:
期刊论文
[1]基于互信息和逻辑回归的新词发现[J]. 陈先来,韩超鹏,安莹,刘莉,李忠民,杨荣. 数据分析与知识发现. 2019(08)
[2]基于依存搭配抽取技术的平面媒体语言监测研究[J]. 邵艳秋,申资卓,刘世军. 山西大学学报(自然科学版). 2019(03)
[3]基于中文宾州树库的依存句法分析器的比较[J]. 杨振鹏. 太原城市职业技术学院学报. 2018(12)
[4]汉语复句中基于依存关系与最大熵模型的词义消歧方法研究[J]. 李源,翟宏森,刘凤娇,黄文灿,杨梦川. 计算机与数字工程. 2018(01)
[5]一种基于改进互信息的文本分类方法[J]. 董露露. 合肥师范学院学报. 2017(06)
[6]基于新词发现与知识库的微博命名实体识别研究——以教育话题为例[J]. 陈桂强. 经营管理者. 2017(11)
[7]基于词向量的评价搭配抽取算法研究[J]. 杨令铎,史海波,周晓锋. 小型微型计算机系统. 2016(10)
[8]基于改进互信息和邻接熵的微博新词发现方法[J]. 夭荣朋,许国艳,宋健. 计算机应用. 2016(10)
[9]基于共现词卡方值的关键词提取算法[J]. 时永宾,余青松. 计算机工程. 2016(06)
[10]基于上下文词频词汇量指标的新词发现方法[J]. 邢恩军,赵富强. 计算机应用与软件. 2016(06)
硕士论文
[1]Spark下MPI/GPU并行计算处理机制的研究[D]. 郑伟.中国海洋大学 2015
[2]现代汉语词语搭配的自动抽取方法[D]. 陈雅菊.华东师范大学 2006
本文编号:3118496
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3118496.html