当前位置:主页 > 教育论文 > 学科教育论文 >

计算语言学文科能学吗_大数据环境下计算语言学的超学科研究

发布时间:2016-10-14 08:15

  本文关键词:计算语言学的超学科研究,由笔耕文化传播整理发布。


您现在的位置 :首页 > 特色专栏 > 冯志伟

大数据环境下计算语言学的超学科研究

日期:2016-01-26  作者:冯志伟  来源:爱思英语

 本文由冯志伟授权爱思英语发布,转载请注明出处和作者



冯志伟.jpg

                                                                                                 冯志伟摄于大连海事大学

大数据环境下计算语言学的超学科研究

-计算语言学超学科研究之七

冯志伟

我们欣喜地看到,在新的21世纪,上世纪90年代开始的这种大数据环境下的、基于统计的超学科研究进一步以惊人的步伐加快了它的发展速度。这样的加速发展在很大的程度上受到下面三种彼此协同的趋势的推动(冯志伟 2013)。

首先是建立带标记语料库的趋势。在语言数据联盟和其他相关机构的帮助下,计算语言学研究者可以获得口语和书面语的大规模的海量语料。在这些海量语料中还包括一些带有句法、语义和语用等不同层次的标记的语料,其中蕴藏着丰富的语言知识。这些带标记的语言资源大大地推动了人们使用有监督的机器学习方法(supervised machine learning)来处理那些在传统上非常复杂的自动句法分析和自动语义分析等问题,并且也推动了有竞争性的评测机制的建立。

第二是统计机器学习的趋势。在大数据的环境下,对于机器学习的日益增长的重视,导致了计算语言学研究者与统计机器学习的研究者更加频繁地交互,彼此之间互相切磋,互相影响。统计机器学习成为了计算语言学超学科研究的重要内容。

第三是高性能计算机系统发展的趋势。在大数据环境下,高性能计算机系统的广泛应用,为机器学习系统的大规模训练和效能发挥提供了有利的条件,而这些在上一个世纪是难以想象的。

最近,大规模的无监督的机器学习方法(unsupervised machine learning)得到了重新关注。在机器翻译和文本主题模拟等领域中统计方法的进步,说明了除了使用带标注的语料库之外,也可以训练完全没有标注过的语料库来构建机器学习系统,这样的系统也可以得到有效的应用。

在大数据环境下的计算语言学研究中,围绕着超学科的问题,学者们的看法不尽相同:有的学者极力排斥语言学,而有的学者则强调语言学的重要性。这些不同学术思想撞击出灿烂的火花,照亮了我们的双眼,使我们对于超学科的重要性看得更加清楚了。我们认为,计算语言学的超学科研究对于计算语言学的发展具有导向性的作用,一旦脱离了超学科研究的轨道,将会使计算语言学的研究走向歧途。

面对基于统计的超学科研究方法取得的辉煌的成绩,有的学者在成绩面前飘飘然起来,他们过分地夸大统计方法的作用,看不起基于规则的方法。在一次自然语言处理评测讨论会上,,美国IBM公司语音研究组的Jelinek竟然大言不惭地对与会者说:“每当一个语言学家离开我们的研究组的时候,语音识别率就会提高一步。”(Jurafsky & Martin 2005冯志伟 孙乐译)。Jelinek把从事超学科研究的语言学家,贬低到了一钱不值的程度,采取了嗤之以鼻的态度,他得意忘形,试图改变计算语言学的超学科性质,使计算语言学研究脱离超学科的轨道。我们认为,这是一种错误的倾向,将会使计算语言学走向歧途(冯志伟 2012)。

与Jelinek不同,美国计算语言学家Kenneth Church却主张在采用大数据和统计方法的同时,还应当加强语言学的学习。他在2007年发表了一篇文章叫做《钟摆摆得太远了》(Church 2007),叙述了他的认识发展过程。在这篇文章中, Church回顾了上世纪90年代他和一些志同道合的青年学者在国际计算语言学学会中创建一个“数据研究兴趣组”的情形。他说,“当时我们出于实用主义的考虑,背叛了自己老师的理性主义方法的立场,专门建立一个兴趣小组来研究数据。我们认为,既然现在语言数据可以轻而易举地得到,为什么不可以拿过来利用一下呢?与其高不成低不就,不如顺水推舟,做一些简单易行的事情,率先摘取那些大树上低枝头的唾手可得的果实。”他们采取的技术路线是以语言数据为基础的经验主义方法,也就是本文中描述的基于统计的超学科方法。

当时他们只是想在国际计算语言学学会众多的兴趣组中取得一席之地,并没有更大的野心。可是,过了几年之后,就进入了大数据的时代,他们倡导的这种基于统计的超学科方法不仅复苏了,而且取得了很大的成功,以至于成为了计算语言学的标准方法和主流方法。他们使用这样的超学科方法,率先摘取那些大树低枝头上的唾手可得的果实,取得了辉煌的成就,确实具有先见之明。

如果当时Church等人紧随在他们的老师之后,亦步亦趋地不敢越雷池一步,把自己局限在基于规则方法的狭小天地之中,没有毅然决然的勇气采用大数据和基于统计方法来补充基于规则方法的不足,估计就不会有今天这样辉煌的成就。

然而,在这样的成就面前,他们并没有像Jelinek那样踌躇满志,Church清醒地认识到,当前这个基于统计方法的“钟摆”已经“摆得太远了”。他问道:“如果那些低枝头上的果实都被摘完之后,谁去摘那些处于大树的高枝头上的果实呢?究竟怎样去摘呢?”他认为,应当依靠深层的语言学知识去摘取。Church要他的学生们认真地学习语言学的知识,深入研究语言学中的规律和各种规则,把语言学规则融合到统计方法中去,进行名副其实的超学科研究,才有可能进一步摘取高枝头上的果实。

Church与Jelinek都在计算语言学研究中采用了统计方法,并且取得了卓越的成就,可是他们对于超学科研究的主张却是截然不同的。这些不同主张引导学者们对于计算语言学超学科研究的问题进行更加深入、更加富于理论意义的思考。

与Church的主张相呼应,计算语言学家Lori Levin在2009年的欧洲计算语言学会(EACL2009)的专题讨论上也提出了一个发人深省的建议。他建议计算语言学要关注语言学的基础研究,在国际计算语言学学会里设置一个语言学专委会。Levin指出,从本质说来,在当前的自然语言处理工程里,已经把语言学置于非常次要的地位了,大家整天考虑的几乎都是程序技术或者算法问题,很少关注自然语言处理工程背景后面隐藏着的语言学问题,计算语言学事实上已经成为了没有语言学支持的语言学科,在计算语言学研究中,语言学在整体上是缺位的!在当前的计算语言学超学科研究中,语言学已经失去了它应有的位置。

Levin的这个建议一石激起千层浪,在计算语言学界引起了热烈的讨论。其中特别值得我们注意的是Shuly Wintner的意见。她发表了一篇题为《什么是自然语言工程的科学支撑?》的文章(Wintner 2009),强烈地呼吁“语言学重新返回到计算语言学中”。

国际计算语言学界的这些讨论涉及到深刻的方法论问题,值得我们高度关注。我们不同意Jelinek的错误主张。我们认为,在计算语言学研究中,应当把基于规则的方法和基于统计的方法结合起来,把语言学、数学和计算机科学紧密地结合在一起,取长补短,相得益彰,这样的研究才算得上是真正的超学科研究。

我们高兴地看到,在超学科思想的指导下,在基于统计的方法中更加自觉地引入了语言学信息,我们将其归纳为如下两个方面。

首先,在统计机器翻译中提出了基于短语的统计机器翻译模型,这种模型把语言学中的短语作为翻译的原子单元。在短语翻译表中,短语之间是一一映射的,也可能存在调序。短语翻译表可以从词对齐中通过机器学习而自动地得到,与词对齐一致的所有短语偶对都被添加到短语翻译表中。在扩展原始的翻译模型时,还引入了额外的模型组件,这些组件包括:双向翻译概率、词汇化加权、词惩罚和短语惩罚(冯志伟 2013)。

其次,为了在基于统计的方法中引入语言学信息,在统计机器翻译中,还提出了整合语言学知识的问题,其中包括利用句法标注的语言学信息来提高统计机器翻译的质量,在基于短语的统计机器翻译中,融入字母翻译、词汇翻译和句子结构等语言学知识。如果源语言和目标语言在词序方面差别明显,还可以使用基于句法的方法来调序。当处理句法树的重构时,可以使用子结点调序限制来降低计算的复杂性,也可以使用重排序 (re-ranking) 方法,在挑选最佳翻译时利用语言的句法特征,检查输入和输出的一致性,等等(冯志伟 2013)。

由此可见,在基于统计的方法中引入语言学信息,可以弥补统计方法的不足,使基于统计的方法如虎添翼。因此,在大数据环境下,把基于统计的方法与基于规则的方法紧密地结合起来,是计算语言学超学科研究的关键。计算语言学的超学科研究有着令人鼓舞的光辉前景。

 

 

    语言学在现代认知科学、自然语言处理中有着重要的地位。由于语言现象的复杂性,研究领域将语言学分为不同的学科,而现代科学技术的发展使语言学中跨越学科界限的研究成为必然,研究方法也从单一层面、单一维度发展到多层次、多维度。语言学的超学科命题并不摒弃语言学的各学科,而是以一门学科的深入知识作为基本结构基础,每个相关学科都会贡献自己的基础知识,进而创造出新的行为模式,推进语言学的发展。


  本文关键词:计算语言学的超学科研究,由笔耕文化传播整理发布。



本文编号:139995

资料下载
论文发表

本文链接:https://www.wllwen.com/jiaoyulunwen/xuekejiaoyulunwen/139995.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3a992***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com