基于CONTEC语料库的中介共性量化研究

发布时间:2019-08-24 19:34
【摘要】:1.研究背景论文在梳理语言共性、翻译共性到中介共性的基础上,着重对中介共性假设进行验证。中介共性这一概念源于翻译普遍特征。后者是指翻译语言作为一种客观存在的语言变体,相对于源语或目标原创语言从总体上表现出的规律性语言特征,被称为“第三码”(肖忠华、戴光荣,2010:52)。由于这些翻译语言的特征也能在非母语语言中找到,这就意味着所谓的翻译共性有可能是“中介共性”(mediation universal),即所有中介语篇(mediated discourse),如译文、学习者语言、专业人士的非母语产出等都可能具有的特征(肖忠华,2012:162)。翻译共性假设的验证是描写翻译研究的重要研究领域(肖忠华、戴光荣,2010;肖忠华,2012:14)。自Baker(1993)首次提出翻译共性概念以来,围绕该主题已有不少学者采用语料库翻译学方法进行了大量研究。国外具有代表性的研究包括Baker (1993,1996);Laviosa(1998a,1998b);?veras(1998);Olohan Baker(2000);Mauranen (2000); Mauranen Kujamaki(2004);国内代表性的研究包括柯飞(2005);胡显耀(2004,2005);吴昂、黄立波(2006);Chen(2006);王克非、胡显耀(2008),王克非(2012);肖忠华、戴光荣(2010);胡开宝(2011);肖忠华(2012)等。这些研究探讨的翻译共性特征包括简化、明晰化、规范化和均质化等。简化是指“译文有一种简单化的趋势”(Baker,1996:181-182),即翻译语言与译入语母语相比,在词汇、句法或者文体等方面更加简化,如译文使用更少的复杂句。早期的简化研究是基于不同的数据,且针对不同的研究问题展开的,因此缺乏可比性(肖忠华、戴光荣,2010)。明晰化是指翻译文本将源语文本中隐含的信息或表述不清楚的信息以明确的方式表达出来,以便读者理解(胡开宝,2011:83)。明晰化通过词汇或句法层面体现,如译文中更多使用连接词或代词。规范化指翻译文本在标点符号、词汇选择和句子结构等方面所表现出的遵循译入语文本传统的趋向,或是“遵从甚至夸大译入语典型特征和表达法的趋势"(Baker,1996:183)。典型的规范化例证包括在译文中过多使用译入语的典型语法结构,如英语的被动语态。“均质化”(Laviosa,2002:72)也被称为“集中化”(convergence)或整齐化(levelling out) (Baker,1996:184),指译文倾向于使用同质语言。Williams (2005)计算可读性指标(readability indices)的标准差来观测译文是否具有均质化特征。以上翻译共性特征在得到一些学者验证的同时,也受到多种质疑,如Tymoczko(1998)认为翻译共性观点是不可接受的;Gaspari Bernardini(2010)则认为,翻译共性实际上可能属于“中介共性”,因为翻译语言的一些特征也能在一些中介语篇性质的非母语文本中找到。因此,他们提出了在翻译共性框架下,系统研究中介语(interlanguage)或非母语产出(nonnative production)和译文是否具有相同特征的思路。换言之,如果在译文和非母语语篇中发现了相类似的语言特征,我们就可以认为中介共性(mediation universal)而非翻译共性的概念更能解释这些语言现象。为此,他们运用意大利语母语者的英语笔语语料建了CONTE(the Corpus of Non-native and Translated English)语料库,以连接词therefore为例,对中介共性做了有益的开拓性研究。2.研究目的虽然Gaspari Bernardini的研究开始转向对中介共性的探讨,但只是尝试性的初步调查,尚未作系统的考察;此外,从语系来看,差异比较大的汉语和英语语对(language pair)得出的结论将更有说服力(肖忠华、戴光荣,2010)。因此,本研究自建了汉语使用者以英语作为通用语(Lingua Franca)的CONTEC (Corpus of Non-native and Translated English by Chinese)语料库,旨在翻译共性的研究框架下,对中介语共性特征进行系统的量化研究,探究汉语使用者的译文英语和直接用英语创作的非母语英语是否具有相同的语言特征。3.CONTEC语料库本研究所建的CONTEC语料库是一个由三种英语变体组成的单语语料库,分小说和新闻两种语类。这三种语言变体是汉语使用者直接用英语创作(NNW)的非母语英语,汉语使用者汉译英的译文英语语料(TR),以及作为两者参照语料(NS)的母语原创英语,总容量近680万词(见表1)。语料样本的出版日期基本上在1991-2001年之间,文本从网上爱问共享资料下载或由纸质出版物扫描,用文字识别软件ABBYY FineReader转换成纯文本后,用CLAWS4完成词性标注工作。1)TR子库:该子库小说部分(TR-F)的语料主要选自一些中国作家的中短篇小说的英译,挑选由中国专家翻译的部分,其中一部分来源于由外语教学与研究出版社出版的中国文学宝库(英汉对照)(大学生读书计划)(出版日期为1999年),一部分来源于网上爱问共享资料,共计24个文本,319,125词数;该子库的新闻语料(TR-N)选自1994-1998年宾州中文树库的新闻英译,共计325个文本(便于统计整理成10个文件夹),121,170词次。2)NNW子库:该子库小说部分(NNW-F)的语料主要选自大陆移居美国和英国作家的作品(如哈金、谭恩美等),均来源于网上爱问共享资料和百度文库,大部分全文收集,部分节选,出版日期大部分接近2001年,共计10个文本,1,031,403词数;该子库的新闻语料(NNW-N)选自语言数据联盟(LDC)出版的Gigaword语料库中1995-1998年新华社英文资料,经随机抽样、节选一些报道的前、中、尾部分,共计21个文本,2,268,531词数。3)NS子库:该子库小说部分(NS-F)的语料直接选用FLOB和FROWN两语料库的小说部分(即K、L、M、N、P部分),共计10个文本,485,641词数;该子库的新闻语料(NS-N)选自Gigaword语料库中的1995-1998年美联社(Associated Press)英文新闻,经随机抽样、节选一些报道的前、中、尾部分,共计21个文本,2,563,187词数。4.研究问题通过比较、量化和分析本语料库三个子库(NS,TR和NNW)在简化、明晰化、规范化和均质化等参数所表现出来的语言特征,考察译文英语与母语原创英语,非母语英语与母语原创英语,以及译文英语与非母语英语之间的异同,本文试图回答如下研究问题:(1)译文英语和非母语英语是否比母语原创英语更为简单?(2)译文英语和非母语英语是否比母语原创英语更为明晰?(3)译文英语和非母语英语是否比母语原创英语更趋于规范?(4)译文英语和非母语英语是否比母语原创英语更具均质特征?5.研究方法和工具5.1三步比较分析法本研究采用三步比较分析法。第一步是以母语原创英语作为参照标准,比较译文英语与母语原创英语,从中观察译文所呈现出来的翻译共性特点;第二步同样是以母语原创英语作为参照,比较非母语英语和母语原创英语,观察非母语英语的语言特征;第三步是综合比较译文英语和非母语英语,观察二者是否具备相似性,即验证中介共性的存在。在以上三步分析法中,我们采用同样的测量指标,如平均词长、句长、高频词、罕用词、词汇密度、以及标准类符/形符比(STTR)等进行词汇方面的简化验证;利用可读性指标(readability scores)及句长的标准差对以上三种语体进行简化和均质化的检验;被动语态是英语的一种典型形式,我们用它来验证译文英语和非母语英语是否存在规范化趋势;与母语原创英语比较,译文英语或非母语英语是否使用更多连接词可用来反映这两种文本的明晰化趋势。除词汇层面外,本研究还利用Lu(2010)的语言复杂性指标(syntactic complexity measures)来检验中介共性在句法层面上的语言特征。5.2语料分析使用的工具本研究使用的语料库检索及统计工具有:(1) WordSmith 5.0版和3.0版,前者主要用来测量词长、句长、高频词、罕用词、词汇密度、以及标准类符/形符比(STTR)和句子标准差等;后者则是用于被动语态和"that"省略频数的检测。(2)第二语言句法复杂性分析软件(L2 Syntactic Complexity Analyzer),可测量5种类型共14项句法复杂性指标。具体来说,第一种类型主要测量子句(mean length of clause or MLC)、句子(mean length of sentence, or MLS)和T单位(mean length of T-unit, or MLT)的平均长度;第二种类型主要测量句子的复杂比率,即句子中包含的子句数(clauses per sentence, or C/S);第三种类型主要测量反映从属性的四种比率:T单位复杂性比率(clauces per T-unit, or C/T),复杂T单位比率(complex T-units per T-unit, orCT/T),从属句比率(dependent clauses per clause, or DC/C)和每T单位的从句数(dependent clauses per T-unit, or DC/T);第四种类型主要测量并列句数的三种比率,它们是:每个子句的并列词组数(coordinate phrases per clause, or CP/C)、每个T单位的并列词组数(coordinate phrases per T-unit, or CP/T)和句子T单位数(T-units per sentence, or T/S);第五种类型测量一些特定结构,包括三种比率:每个子句包含的复杂名词词组数(complex nominals per clause, or CN/C),每个T单位包含的复杂名词词组数(complex nominals per T-unit, or CN/T)和每个T单位包含的动词词组数(verb phrases per T-unit, or VP/T)o我们使用这14种测量指标对译文语料子库TR,非母语子库NNW和英语母语子库NS进行比较,从另一个角度考察它们的句法特征。(3)可读性分析软件(Readability Analyzer) (Xu Jia,2009)。这一软件用于检验两个共性假设:一是译文英语或非母语英语是否比母语原创英语更容易阅读?另一方面就是看其可读性数据是否存在均质化特征。(4) Log-likelihood Ratio Calculator(对数似然计算器)和Chi-square Calculator(卡方计算器)。这两款软件由许家金教授和梁茂成教授等设计研制,方便处理大量需频数差异检验的数据。除上述数个主要工具外,肖忠华教授采用PERL语言编写了一些程序:format_all_in_one.pl,format_apw_eng_news.pl和format_xin_eng_news.pl等。这些软件解决了语料收集中大量网页格式到纯文本格式的转换问题;此外,POSlist.pl, POSonly.pl和WORDonly.pl可用于特定语料词性或词语的统计。6.分析与讨论首先,本文利用自建语料库对比分析了译文英语和母语原创英语两个子库所涉及到的词汇、句法等各种语言特征(第四至六章),探究翻译语言特点。通过译文英语和母语原创英语的比较,本文发现小说和新闻两种不同语类所呈现的语言特征存在一定的差异性。6.1翻译语言特征6.1.1词汇特征在词汇方面,就小说语类来说,译文英语的词汇密度和标准类符/形符比(STTR)均高于母语原创英语(虽然STTR的数据不具备统计意义),原因可能是受“实词多虚词少”汉语特征(胡显耀,2010:62)和直译策略的影响。由于受到中国政治制度和机构等中国特色词汇翻译的影响,新闻语类译文英语的词汇密度高于母语原创英语,但这种语类译文英语的标准类符/形符比却低于母语原创英语,说明译文英语比母语原创英语用词范围更为狭窄,显示出简化特征,究其原因,新闻翻译子库不少语料来自新闻简讯,用词趋于单调、重复(王佐良、丁往道,1987:267)。小说、新闻两种语类的高频词数据显示,译文英语比母语原创英语使用更多的高频词,译文趋于简化。就用作考察文本独创性的参数(Kenny,2004)的罕用词而言,本研究发现母语原创英语小说的一次性罕用词语多于译文英语,而母语原创英语新闻语类的一次性词语少于译文英语的原因,这是因为译文源语中存在大量的中文人名、地名。关键词分析表明,译文英语比母语原创英语使用更多的代词和连词,体现出明晰化特征;译文英语,尤其是新闻语类文本,较多使用并列连接词“and”和介词“of",这反映了汉语的影响或所谓“源语渗透”所致。汉语使用者喜欢用逗号或“and”翻译汉语流水句,若遇上“的”字结构,就习惯于译成“of”(郄春生,2012)。关键词类分析显示,译文英语还超用量词(NNU),这是受到汉语渗透的影响,因为汉语的量词特别丰富(黄伯荣、廖序东,1988)。负关键词分析显示,小说类译文英语少用模糊限制语(hedges)和语气较为委婉情态动词,如"maybe", "almost", "might"等。对具体情态动词的调查也说明,译文英语多用语气较强的情态动词,这是译者的消歧策略所致,体现了明晰化的过程。虚词分布显示,译文英语比母语原创英语使用更多的连接词,这反映了译文英语的明晰化特征。6.1.2可读性从小说和新闻两种语类的可读性参数来看,它们的译文英语均比母语原创英语可读性低,因此不支持简化假设;另外,小说类译文英语可读性标准差和句子标准差均低于母语原创英语,略呈均质化趋势;与此不同的是,虽然新闻类译文英语可读性标准差也低于母语原创英语,但其句子标准差却高于母语原创英语,二者相矛盾的数据反映出均质化特征难以测量。6.1.3句法特征句法层面的数据表明,小说类译文英语的单位长度如子句、句子和T单位平均长度,子句/句子比率(C/S)均高于母语原创英语,因此不支持简化假设。译文使用了较多的名词性和动词性词组,体现了由源语渗透导致的规范化特征,因为译入语英语的典型习惯用法是多用名词。值得关注的是,新闻类译文英语的子句、句子和T单位平均长度,并列句使用频率均高于母语原创英语,但从属句使用频率却低于母语原创英语。这说明,平均单位长度作为简化的指标并不可靠;同时也说明简化特征在深层结构和表层结构均有所体现。语类的差异还体现在被动语态的使用方面,小说类译文英语使用的被动形式多于母语原创英语,表明译入语与母语在被动态使用方面趋同。需指出的是,新闻语类的译文不存在这一现象。6.2非母语语言特征本文在词汇、语法等方面对非母语英语和母语原创英语两个子库进行比较,以观察非母语英语的语言特征(第七至九章),对比结果表明小说、新闻两种语类存在差异。6.2.1词汇特征在词汇方面,小说语类的非母语词汇密度和标准类符/形符比(STTR)均略高于母语原创英语(均不具备统计意义);新闻语类的数据正好相反,非母语英语的词汇密度和标准类符/形符比均低于母语原创英语,且都具有统计意义,说明简化特征在非母语英语中同样存在。在高频词使用方面,非母语英语呈简化趋势。非母语英语比母语原创英语使用更多高频词数目,新闻文本的高频词占所在子库的比例也比母语原创英语更高,高频词与低频词之间的比值也更大。需注意的是,在新闻语类中,母语中高频词重复率高于非母语英语中的频率,这体现了原创英语新闻语体的固定新闻写作模式;针对低频词的分析表明,简化特征不存在于非母语英语中。小说类的关键词分析提供了类似译文英语的词汇特征,比如非母语英语常用代词和连词,体现了明晰化的特征。负关键词分析则显示,非母语英语少用"something", "sort of", "quite'等模糊限制语,这说明非母语英语作者不善于使用婉转语气的表达,同时表明明晰化和简化特征。非母语英语还少用定冠词“the”和第三人称代词“it”,这是源语渗透的结果,因为汉语没有定冠词和少用代词“它”。关键词类分析也表明,由于受源语汉语影响,非母语英语中存在超用动词和量词两种词类的情况。新闻类关键词及关键词类分析均显示了类似译文英语的词汇特征,非母语英语超用"of" (IO)和"and" (CC),这可能与汉语的松散、平面结构有关。译文英语和非母语英语的相似性,证明了中介共性的存在。负关键词分析显示,非母语英语少用第一、二人称代词,这是因为中国的新闻媒体很难摆脱宣传作风,而西方记者注重运用细节描写(如对话)来增强新闻的可读性与感染力(马文丽,2011:160-161)。这种中西方新闻报道方式的差别还体现为非母语英语少用带有个性特征的感官动词"think", "know" (ibid)等。虚词分布显示,非母语英语比母语原创英语使用更多的用连接词,这反映了明晰化的特征,也验证了中介共性的存在。6.2.2可读性非母语英语的可读性提供了与简化相悖的数据;句子标准差参数,不支持均质化趋势。6.2.3句法特征句法复杂性分析显示,小说类非母语英语的单位长度(子句,句子和T单位平均长度),从属句,复杂性名词、动词词组使用频率均高于母语原创英语,与简化特征相反。非母语英语多用复杂性名词词组体现了中国海外作家特有的一种写作风格---“音译+英语释义”;多用复杂性动词词组则反映了汉语的影响。新闻类非母语英语与译文英语在单位长度,如子句,句子和T单位平均长度等方面相似度高;且两者中使用并列句的频率均高于母语原创英语,但句子中的子句数及从属句使用频率却低于母语原创英语。这反映简化特征的杂糅、细腻,也说明仅从单位平均长度来测量简化特征过于简单,应从深层结构来考察。结合译文英语的句法数据来看,两者存在相似的地方,这从另一个角度说明了中介共性的存在。非母语英语的被动语态使用情况显示,两种语类的被动形式均多于母语原创英语,表明非母语英语作者倾向于使用英语的典型表达方式,这说明非母语英语存在规范化倾向。6.3译文英语和非母语英语的比较在比较译文英语和非母语英语(第十章)方面,T检验显示,就小说类文本而言,两者在词汇密度和标准类符/形符比方面没有显著差异,这说明译文英语和非母语英语具有共同特征。新闻类译文英语的词汇密度高于非母语英语,反映了新闻译文英语受中文名称翻译的影响,而非母语英语新闻写作则可以采用回避策略(avoidance strategy)。另一方面,非母语英语的标准类符/形符比高于译文英语,这说明把英语作为通用语的中国学者比译者更有机会使用不同的词汇,且更少受原文的束缚。在高频词使用方面,译文英语和非母语英语具有共同的特征,但两相比较,译文英语比非母语英语更趋于简化。就关键词和关键词类分析,以母语原创英语为参照,译文英语和非母语英语均超用量词和动词,这反映了相同源语的渗透影响。可读性参数显示译文英语和非母语英语均比母语原创英语更为复杂和不易阅读,没有体现简化趋势。至于可读性和句子的标准差,只有小说类译文英语显示出均质化特征,在其它文本中则表现出均质化特征的不一致和难以测定。句法复杂性分析显示,就小说语体来说,相对而言,译文英语比非母语英语更趋向于简化,因为非母语英语的句法复杂性参数(并列句使用频率除外)均显著高于译文英语;新闻语体的数据与小说语体相似,除了译文英语的单位平均长度(子句,句子和T单位平均长度)高于非母语英语外,其他句法复杂性参数均显示非母语英语高于译文英语,说明译文英语相比较于非母语英语更趋向于简化。被动语态是英语的典型语法结构,其使用频数显示,小说类文本不具统计意义;新闻类的数据表明,非母语英语比译文英语使用更多的被动语态形式,因此非母语英语相对更趋于规范化。7.主要发现本文利用自建语料库,考察译文英语和非母语英语相对于母语原创英语,在简化、明晰化、规范化和均质化等参数所表现出来的语言特征,以验证中介共性的存在。7.1简化根据研究问题一,译文英语和非母语英语是否比母语原创英语更为简单?我们从词汇和句法两个方面进行了考察。测量词汇密度(lexical density)有两种常见方式,一种是实词所占比例,或实词与虚词之比,主要是衡量语篇的信息密度;另一种方式是标准类符/形符比(STTR),主要是衡量词汇的差异度。本文自建语料库中的小说语类数据表明,译文英语和非母语英语均比母语原创英语使用更多实词和更为丰富的词汇。其中原因是译文或非母语英语作家要把文化内涵深刻的文学作品介绍给英语国家,自然需要使用内涵丰富的各类词汇,尤其是名词。而译文英语和非母语英语之间没有统计意义上的差别,说明两者具有相同的语言特征。在新闻语类中,母语英语比译文英语和非母语英语词汇在词汇使用方面更为丰富,但在单词信息量方面介于译文英语和非母语英语之间。上述发现表明,由于受源语和译入语两种语言文化的影响,中介共性的简化假设体现了杂糅的特性。简化的“杂糅复杂”在句法层面也有所体现。从表层结构来看,译文英语和非母语英语使用的子句、句子和T单位的平均长度均高于母语英语,这一现象挑战了简化假设;但就深层结构而言,译文英语和非母语英语的复杂性指标低于母语英语,如主从复合句比例等,这一现象又显示出简化的趋势。译文英语和非母语英语的另一个相似点是都倾向于使用强语气词,如must和should,从认知的角度看,这是因为强语气词的认知显性度更高,这也体现了简化和明晰化的重叠。7.2明晰化对于研究问题二,译文英语和非母语英语是否比母语原创英语更为明晰?连接词是明晰化的标志之一从连接词和代词的频数使用情况来看,小说、新闻两种语类的译文英语和非母语英语都比母语英语更多地使用连接词和代词等,显示出明晰化趋势。从连接词的类别来看,两种语类的译文英语比母语英语均使用更多的连接词类型,但两种语类的非母语英语却比母语英语使用的连接词类型种类更少。两相比较,在连接词的使用频率和类型方面,译文英语均高于非母语英语。因此译文英语更能体现明晰化趋势。7.3规范化本文只考虑由by引导的被动形式。从被动形式的使用情况来看,除了新闻类译文英语外,译文英语和非母语英语的文本总体上比母语原创英语使用更多的被动形式,因此支持中介共性的规范化假设,但同时也有语类上的差异。7.4均质化译文英语和非母语英语是否比母语原创英语更具均质特征呢?可读性指标的离散程度——标准差,加上句子长度标准差的数据可以考察语言的均质化程度。数据显示小说、新闻两种语类译文英语的可读性离散程度均低于母语原创英语,似乎表现出均质化趋势,但除了译文英语的小说文本外,其它子库中的句长标准差都提供了相反的数据,这表明均质化现象比较复杂,本文语料库不能验证它的存在。经过系统的量化、比较、和分析本语料库中三个子库(NS, TR和NNW)在简化、明晰化、规范化和均质化等参数所表现出来的语言特征,我们发现,小说和新闻两种语类存在一定的差异,译文英语和非母语英语之间则具有很多相似之处,例如词汇密度均高于母语原创英语,又如均使用更多的连接词等。本文基于语料库的研究表明,与翻译共性这一概念相比,中介共性的概念不仅可用来解释翻译文本的特征,也可用来解释专业人士非母语创作的文本特征,因此具有更强的概括力和解释力。8.研究意义本研究利用自建的英语单语语料库对译文英语和非母语英语产出同时进行系统的比较、量化统计。(1)在Gaspari Bernardini(2010)的基础上,对它进行了更加系统、深入的实证研究,进一步推进了国内中介共性的研究;(2)从语系来看,差异比较大的汉语和英语语对(language pair)得出的结论将更有说服力;(3)将语言对比,翻译研究和非母语产出有机地结合起来是本研究的一大特色;(4)用句法复杂性分析软件测量句法方面的简化特征对翻译共性研究在方法上略有创新,使得简化研究更加深入、细腻,更加精准;鉴于非母语写作这一特殊二语写作群体的研究比较匮乏,系统地研究汉语使用者以英语作为通用语(ELF)而非英语学习者的非母语产出在原有的研究领域上有所扩展;本研究的发现对国际上描写翻译和非母语产出做了一些比较研究。9.研究局限首先,由于汉译英新闻语料获取难度较大,导致本研究使用的英语可比语料库在平衡性方面存在一些不足。虽然这方面的不足可以通过统计方法进行处理,但更为理想的是能够创建一个大型的、文类多样、采样更加平衡的综合语料库。它既包括能探讨翻译语言特征的英汉-汉英对应/平行语料库,又包含能探讨中介共性特征的可比语料库。其次,由于受到文本来源的制约和研究时间的限制,本研究仅收集到小说和新闻两种语类的语料,语料库语类采样略显单一,理想的做法应按照LOB和Brown家族15种语类进行采样。再次,翻译和非母语产出涉及到源语和目标语两种语言和文化的交流,必然受到两种语言和文化的影响。要了解中介共性后面的动因,语料库的背景知识尤为重要。本研究使用的自建语料库虽然进行了词性赋码(POS tagging),但是没有进行元信息标注(metadata markup),这是本文研究的另一不足。最后,由于均质化参数,如离散程度或标准差的测量,难以统计语料间的显著性差异,因此本研究所考察均质化的参数较少。在后续研究中,我们可以采用多维度研究方法,对均质化趋势进行单独系统研究。
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:H059


本文编号:2529145

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/rwkxbs/2529145.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户42d9c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com