基于英汉双语平行语料库的句法级知识挖掘和抽取研究
发布时间:2021-07-09 19:51
随着自然语言处理和文本挖掘技术的发展,从非结构化文本中挖掘和抽取相应的知识日益成为一种趋势,而基于面向网络构建的英汉双语平行语料库,从中挖掘和抽取词汇、简单短语和复杂短语等句法级上的相应知识正是在这一趋势下的一种探究。挖掘和抽取的知识不仅有利于知识库构建、知识服务、信息检索、信息计量等情报学中的相关研究开展,而且有助于自然语言处理中的歧义消解、知识抽取和机器与辅助机器翻译问题的解决。基于各种模型和算法,结合多种研究方法,使用各类别的语料库,本文完成了词汇、简单短语和复杂短语三个句法层面上的知识挖掘和抽取。在引言中说明了开展本研究的背景、意义、创新点、整体流程、文章的整体框架和所使用的资源。在文献综述章节里,围绕着词汇、简单短语结构和复杂短语结构三个句法层面的知识挖掘和抽取进行了多角度的相关研究综述。面向网络获取了英汉双语通用和专门平行语料,构建了相应的英汉双语平行语料库。在该部分主要围绕确定抓取网站、制定抓取底表、通过抓取工具获取网页、抽取英汉双语平行语料对、清洗英汉双语平行语料对和对英汉双语平行语料对进行去重处理等问题展开了探讨。在词汇这一级,结合情报学中的相应方法和知识,挖掘出了英...
【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:158 页
【学位级别】:博士
【图文】:
基于英汉双语平行语料库的句法级知识抢掘和抽取研究技术流程圈
抓取网页三部分构成。考虑到抓取页面比较占据空间,每一文件夹里面最多放置了?10000??个抓取的网页,同时为了灵活的处理各种格式的抓取底表,设置了两种网址与抓取底表中??的词汇捆绑的方式。抓取网页词汇链接生成的程序见图3.2,生成的词汇与网址的链接样例??见表3.4。??生湖遇………;???—――1?孤I??网址模巧:P而7?7;**TXi?cTiiiTc—苗吊?I?Cancel?|??餘人网紙,麗要規輿词替换的地方用C*)聚泰,如?:??http://4-?24en.?com/s/*?w^?(*)??词輿妓拌:P?:?\paper?S-keywords.?txt?f…]??巧接蒙的词巧文件巧巧为:U?—巧一个单词;幾2、毎巧格或如:???ib?rudo。_〉过々TvSj?ab扭idoninjg;)沾)??嫌乘呂录:i???,?,??i?‘?'??毎pDOO?个网址列表一个义拌?I??i??图3.2网页获取词汇与网址链接程巧困??表3.4词汇与网址生成的链接样例表??巧号?网址链接?抓巧底表词汇?生成的巧接??1?http://www.jukuu.com/?abacus?http://www.jukuu.com/show?巧?bacus-1?.html??2?h?打?p:/^/www.jukuu.com/?abet?http://www.jukuu.com/show-abet-l.html??3?hUp://www.jukuu.com/?abnormalit
,.、??化80。经去重后的英汉双语通用语料共有413459对,专口语料175301对,具体的英汉双语??平行语料去重执行程序见图3.6。??隱画闕??髮??一禅W.....着??I'-去重範畳???…-!孤?J??n?i?待去垂絮件:fr?^P^^rVcorpusT?lxt?…!?;?Cancel?I???|?^?f\?去塞完成??^??I?缉果党件:?\p&per、trimc公rpcs.?ixt??:一’?*?1[:::谓黒::::]1????????????????'?'""?■■.'?■J??困3.?6英汉双语平行语料去重程序样例??(4)英汉双语平行语料库的构建??在对英汉双语平行语料去重的基础上,从后续语料深加工和研究的目的出发,英汉双??语平行语料被存入到数据库中,完成I整个英汉双语平行语料库的构建。在选择存储语料??的数据库中,从语料的可移植性、安全性和存储量上综合考虑,英汉双语平行语料的存储??数据库为MySQL?。具体的英汉双语平行语料库中的语料例子见图3.7。??p-Ouery??*65。化S?operation定??????藻打巧预班?C火巧巧预近(全文進示)画々出??
【参考文献】:
期刊论文
[1]浙江独立学院CSSCI论文作者洛特卡分布研究[J]. 冯瑶,董其军,朱婉露. 宁波大学学报(教育科学版). 2011(01)
[2]基于树库的现代汉语动词句法功能的计量研究[J]. 高松,颜伟,刘海涛. 汉语学习. 2010(05)
[3]基于依存树库的现代汉语名词语法功能的计量研究[J]. 高松. 华文教学与研究. 2010(02)
[4]基于最大熵的汉语介词短语识别研究[J]. 卢朝华,黄广君,郭志兵. 通信技术. 2010(05)
[5]基于Web的专利双语语料自动获取研究及实现——以esp@cenet数据库为例[J]. 吴琳,魏星,霍翠婷. 现代图书情报技术. 2009(09)
[6]基于SVM融合多特征的介词结构自动识别[J]. 温苗苗,吴云芳. 中文信息学报. 2009(05)
[7]多语言文本聚类研究综述[J]. 章成志,王惠临. 现代图书情报技术. 2009(06)
[8]多角度对图书情报领域洛特卡分布的验证[J]. 李丽娜. 情报杂志. 2009(05)
[9]基于正则表达式的大规模网页术语对抽取研究[J]. 程岚岚. 情报杂志. 2008(11)
[10]基于向量空间模型的文本聚类算法[J]. 姚清耘,刘功申,李翔. 计算机工程. 2008(18)
博士论文
[1]现代汉语实词句法功能的不对称研究[D]. 王晶.苏州大学 2008
[2]现代汉语实词语法功能考察及词类体系重构[D]. 徐艳华.南京师范大学 2006
硕士论文
[1]基于语料库的名词短语类型及其句法功能研究[D]. 齐喜悦.大连海事大学 2009
[2]现代汉语成语语法功能研究[D]. 赵丽坤.河北大学 2009
[3]面向信息处理的介词短语“往+X”的边界识别研究[D]. 江艳.上海师范大学 2009
[4]面向信息处理的介词“对”及其结构的自动识别研究[D]. 于二慧.上海师范大学 2009
[5]基于CRF模型的汉语介词短语识别[D]. 胡思磊.大连理工大学 2008
[6]基于语料库的中国英语专业学生笔语中介词短语类插入语的研究[D]. 邱宁.大连海事大学 2008
[7]含“的”最长名词短语的自动识别[D]. 钱小飞.南京师范大学 2007
[8]中文命名实体识别方法研究[D]. 廖先桃.哈尔滨工业大学 2006
[9]名词句法功能的若干考察[D]. 门玮.苏州大学 2006
[10]基于条件随机场的自动分词技术的研究[D]. 陈晴.东北大学 2005
本文编号:3274384
【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:158 页
【学位级别】:博士
【图文】:
基于英汉双语平行语料库的句法级知识抢掘和抽取研究技术流程圈
抓取网页三部分构成。考虑到抓取页面比较占据空间,每一文件夹里面最多放置了?10000??个抓取的网页,同时为了灵活的处理各种格式的抓取底表,设置了两种网址与抓取底表中??的词汇捆绑的方式。抓取网页词汇链接生成的程序见图3.2,生成的词汇与网址的链接样例??见表3.4。??生湖遇………;???—――1?孤I??网址模巧:P而7?7;**TXi?cTiiiTc—苗吊?I?Cancel?|??餘人网紙,麗要規輿词替换的地方用C*)聚泰,如?:??http://4-?24en.?com/s/*?w^?(*)??词輿妓拌:P?:?\paper?S-keywords.?txt?f…]??巧接蒙的词巧文件巧巧为:U?—巧一个单词;幾2、毎巧格或如:???ib?rudo。_〉过々TvSj?ab扭idoninjg;)沾)??嫌乘呂录:i???,?,??i?‘?'??毎pDOO?个网址列表一个义拌?I??i??图3.2网页获取词汇与网址链接程巧困??表3.4词汇与网址生成的链接样例表??巧号?网址链接?抓巧底表词汇?生成的巧接??1?http://www.jukuu.com/?abacus?http://www.jukuu.com/show?巧?bacus-1?.html??2?h?打?p:/^/www.jukuu.com/?abet?http://www.jukuu.com/show-abet-l.html??3?hUp://www.jukuu.com/?abnormalit
,.、??化80。经去重后的英汉双语通用语料共有413459对,专口语料175301对,具体的英汉双语??平行语料去重执行程序见图3.6。??隱画闕??髮??一禅W.....着??I'-去重範畳???…-!孤?J??n?i?待去垂絮件:fr?^P^^rVcorpusT?lxt?…!?;?Cancel?I???|?^?f\?去塞完成??^??I?缉果党件:?\p&per、trimc公rpcs.?ixt??:一’?*?1[:::谓黒::::]1????????????????'?'""?■■.'?■J??困3.?6英汉双语平行语料去重程序样例??(4)英汉双语平行语料库的构建??在对英汉双语平行语料去重的基础上,从后续语料深加工和研究的目的出发,英汉双??语平行语料被存入到数据库中,完成I整个英汉双语平行语料库的构建。在选择存储语料??的数据库中,从语料的可移植性、安全性和存储量上综合考虑,英汉双语平行语料的存储??数据库为MySQL?。具体的英汉双语平行语料库中的语料例子见图3.7。??p-Ouery??*65。化S?operation定??????藻打巧预班?C火巧巧预近(全文進示)画々出??
【参考文献】:
期刊论文
[1]浙江独立学院CSSCI论文作者洛特卡分布研究[J]. 冯瑶,董其军,朱婉露. 宁波大学学报(教育科学版). 2011(01)
[2]基于树库的现代汉语动词句法功能的计量研究[J]. 高松,颜伟,刘海涛. 汉语学习. 2010(05)
[3]基于依存树库的现代汉语名词语法功能的计量研究[J]. 高松. 华文教学与研究. 2010(02)
[4]基于最大熵的汉语介词短语识别研究[J]. 卢朝华,黄广君,郭志兵. 通信技术. 2010(05)
[5]基于Web的专利双语语料自动获取研究及实现——以esp@cenet数据库为例[J]. 吴琳,魏星,霍翠婷. 现代图书情报技术. 2009(09)
[6]基于SVM融合多特征的介词结构自动识别[J]. 温苗苗,吴云芳. 中文信息学报. 2009(05)
[7]多语言文本聚类研究综述[J]. 章成志,王惠临. 现代图书情报技术. 2009(06)
[8]多角度对图书情报领域洛特卡分布的验证[J]. 李丽娜. 情报杂志. 2009(05)
[9]基于正则表达式的大规模网页术语对抽取研究[J]. 程岚岚. 情报杂志. 2008(11)
[10]基于向量空间模型的文本聚类算法[J]. 姚清耘,刘功申,李翔. 计算机工程. 2008(18)
博士论文
[1]现代汉语实词句法功能的不对称研究[D]. 王晶.苏州大学 2008
[2]现代汉语实词语法功能考察及词类体系重构[D]. 徐艳华.南京师范大学 2006
硕士论文
[1]基于语料库的名词短语类型及其句法功能研究[D]. 齐喜悦.大连海事大学 2009
[2]现代汉语成语语法功能研究[D]. 赵丽坤.河北大学 2009
[3]面向信息处理的介词短语“往+X”的边界识别研究[D]. 江艳.上海师范大学 2009
[4]面向信息处理的介词“对”及其结构的自动识别研究[D]. 于二慧.上海师范大学 2009
[5]基于CRF模型的汉语介词短语识别[D]. 胡思磊.大连理工大学 2008
[6]基于语料库的中国英语专业学生笔语中介词短语类插入语的研究[D]. 邱宁.大连海事大学 2008
[7]含“的”最长名词短语的自动识别[D]. 钱小飞.南京师范大学 2007
[8]中文命名实体识别方法研究[D]. 廖先桃.哈尔滨工业大学 2006
[9]名词句法功能的若干考察[D]. 门玮.苏州大学 2006
[10]基于条件随机场的自动分词技术的研究[D]. 陈晴.东北大学 2005
本文编号:3274384
本文链接:https://www.wllwen.com/tushudanganlunwen/3274384.html