大数据时代的汉语语言学研究
本文关键词:大数据时代的汉语语言学研究,由笔耕文化传播整理发布。
第36卷第5期詹卫东:大数据时代的汉语语言学研究
才能给出报告,而基于用户查询记录的大数据方法则可以做到每天都发布流感态势报告①。这项研究(Nature)杂志成果发表在2009年2月份的《自然》
[3]上。
大数据处理的魅力不仅体现在上述典型的数据
而且也开始在一些人文社会科学计算和分析领域,
研究领域初试啼声。比如基于维基百科(Wikipe-dia)②的大规模文本分析来从某些特定角度展示人就是一个有代表性的例类历史变迁的宏观面貌,
[4]
子。研究人员利用一台有4000个CPU,内存为
1264TB(1TB=1000GB,即10字节)的超级计算机对400万篇以英语写的百科文章进行处理,提取其中
NLU)。这个语言(NaturalLanguageUnderstanding,
任务的实质是希望找到从语言的形式映射到语言的
人类的自然语言意义的机械方法。如果把“理解”
看做是人类智能行为的主要特征,那么,自然语言理
解显然属于人工智能的研究范畴,即探求作为高级智能的人的语言行为在多大程度上可以机械化。作为一个诞生在仅仅半个世纪前的相当新的研
NLU所经历的发展过程称得上是跌宕起伏。究领域,
而伴随其间的,可以说正是在NLU不同发展阶段人
———“自然语言”们对于其处理对象的不同理解。NLU脱胎于机器翻译(MachineTransla-众所周知,
tion,MT)。上世纪中叶,自动计算装置在二战中破刺激着正在重建新译密码的威力在战后继续发酵,
世界的人们的想象力。用刚问世不久的电子计算机把一种自然语言翻译成另一种自然语言顺理成章地也被看做是密码破译的过程。MT从想法到能实际运行的演示系统,只用了短短五年时间(1949-1954)。然而,由美国Georgetown大学和IBM联合研制的第一个MT系统只是在媒体宣传和争取政府资助上获得了实实在在的成功,真正能够服务于社会解决翻译问题的MT系统并没有像其研制者所宣1966年发布的称的那样在三五年内就问世。相反,
著名的ALPAC⑤报告终结了MT的头一个十年热潮。人们开始透过计算机难以逾越的翻译障碍反思人类自然语言本身的性质。翻译不再仅仅被简单地看做是密码破译的信息处理过程,自然语言也不仅仅是一串单词的序列。如何让计算机真正“理解”人类的自然语言,语言的层次结构该如何分析,如何从形式结构映射到意义表示……等等理论问题开始引起来自计算机科学、数学、语言学等跨学科研究人
——计算语言学也正是员的深思,新兴的交叉学科—在这个背景中走上历史舞台的。20世纪七八十年
代,各种分析自然语言的形式理论和计算方法如雨后春笋般涌现,其中著名的如基于概念依存图(Con-ceptDependencyGraph)的知识表示方法与脚本理论
地点信息,并通过统计每篇文章中的情感的日期、
计算某个特定年份的情感指数(取值从极负面到词,
极正面分为200级),用这种方法计算了1800-2012年间212年的情感指数,并将计算结果用212张叠加的世界地图来表示,即以地图上不同地点标记不同颜色来反映当地在某个特定年份的情感指数。这212张按年叠加带有颜色变化的世界地图以可视化(Visualization)的方式在网页上呈现③,在某种程度上,可以说是直接把一幅“风云际会、斗转星移”的世界史动态画卷铺展在了读者面前④。
,“大数据”毫无疑问已经给这个时代打下了鲜
明的印记,身处其中,无论是否愿意,都将受其影响。就科学研究而言,,有的学科因为直接涉及大数据分析而已经发生显著的变化,比如计算机科学与语言——计算语言学在近十年来的发展,学的交叉学科—
就是这样的例证。下面不妨快速扫描一下这门年轻的学科近半个世纪的发展历程,以更深刻地体会“大数据”对一个学科所带来的冲击和影响。汉语语言学未来的进程或可从中有所借鉴。
二
来自计算语言学的启示
计算语言学(ComputationalLinguistics)从其应
就是让计算机能够“理解”人类的自然用目标来说,
①
Google流感趋势网站(http://www.google.org/flutrends/us/#US)将流感状态分为“极轻、轻、中等、重、极重”五级,并以五种
颜色区分,在Google地图上标记每个地区的流感状态。http://www.wikipedia.org/有285种语言,超过2200万篇文章。https://www.youtube.com/watch?v=KmCQVIVpzWg
需要说明的是,尽管上述这些大数据计算的例子确有震撼效果,但客观而言,大数据计算无论在实际应用还是科学研究中,都还在初期探索阶段,基于大数据得到的结论有的已经可以直接指导人们的社会实践,但也有不少还只是起到一定的参考作用,并不能取代传统的方法。ALPAC是美国国会为调查MT而成立的“自动语言处理咨询委员会”的英文名首字母缩写。
②③④
⑤
71
本文关键词:大数据时代的汉语语言学研究,由笔耕文化传播整理发布。
本文编号:146393
本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/146393.html