基于名人面孔视觉特征和语义信息的视觉统计学习
本文关键词:基于名人面孔视觉特征和语义信息的视觉统计学习,由笔耕文化传播整理发布。
心理学报 2015, Vol. 47, No.7, 837????
Acta Psychologica Sinica DOI: 10.3724/SP.J.1041.2015.00837
基于名人面孔视觉特征和语义信息的
*
视觉统计学习
唐 溢1 张智君1 曾玫媚1 黄 可1 刘 炜2 赵亚军3
(1浙江大学心理与行为科学系, 杭州 310028) (2云南民族大学教育学院, 昆明 650504)
(3西南民族大学社会学与心理学学院, 成都 610041)
摘 要 视觉统计学习是指个体依据视觉刺激之间的转接概率来掌握统计规律的过程。本研究通过5个实验探讨了个体基于名人面孔视觉特征和语义信息进行视觉统计学习的加工机制。每个实验均包括熟悉(学习)和测试两个阶段:在熟悉阶段, 让被试观看名人面孔并完成重复图片探测的无关任务; 在测试阶段, 让被试进行二选一迫选任务。其中, 实验1和2分别考察基于名人面孔视觉特征和语义信息的视觉统计学习效果; 实验3分别考察基于名人面孔视觉特征和语义信息视觉进行统计学习的精确性; 实验4进一步考察基于名人面孔视觉特征和语义信息进行视觉统计学习的时间特征; 实验5验证基于名人面孔视觉特征的视觉统计学习具有面孔特异性。结果表明:个体能同时基于名人面孔视觉特征和语义信息进行精确的视觉统计学习; 基于正立名人面孔的视觉统计学习效果显著高于基于倒置名人面孔的视觉统计学习效果; 虽然基于视觉特征和语义信息的统计加工都具有一致的精确性, 但后者需要更多的加工时间。这提示:基于名人面孔视觉特征的视觉统计学习具有面孔特异性, 个体基于名人面孔视觉特征和语义信息的视觉统计学习过程是分离的, 统计运算发生于面孔特征加工完成之后。
关键词 视觉统计学习; 视觉特征; 语义信息; 时间顺序结构; 名人面孔 分类号 B842
1 前言
在日常生活中, 人类除了加工事物的视觉特征(如颜色和形状等)和语义信息(如名称)外, 还对事物间的时空规律(如时间顺序或空间位置信息)特别敏感。例如, 当我们对一个新环境(如陌生的超市或城市)进行短期的熟悉后, 就能自动习得场景中事物间的时空关系。有研究者认为, 人们之所以能够自动加工场景中的规律信息, 是因为统计学习(statistical learning)能力在其中发挥了重要的作用(Turk-Browne, Scholl, Chun, & Johnson, 2009)。
统计学习就是个体自觉地运算刺激间的转接概率(transitional probabilities, TP)掌握统计规律的过程(Fiser & Aslin, 2001)。该概念最初由Saffran, 收稿日期: 2014-07-16
Aslin和Newport (1996)在研究婴儿的语言习得时提出, 他们给婴儿呈现由无意义音节组成的刺激序列。这些音节每三个构成一个三联体(triplet), 三联体内每个音节的时间顺序固定不变, 而各个三联体之间的时间顺序变化(如pa-bi-ku/go-la-tu/da-ro-pi/pa- bi-ku/da-ro-pi…)。更具体地说, 在整个序列中, 每个音节出现的频次相同, 而刺激之间的转接概率不同。转接概率的运算方式为TP = P (XY) / P (X), 其中X和Y为刺激元素, P (XY)为整个刺激序列中XY组合出现的频率, P (X)为X出现的频率(Miller & Selfridge, 1950), 即三联体内部元素间的转接概结果率为1, 而三联体之间元素的转接概率小于1。发现, 在两分多钟的学习(听觉呈现)后, 婴儿能明显地分辨出呈现过的三联体(如pa-bi-ku)与未呈现
* 国家自然科学基金项目(31371039)、浙江省自然科学基金(LY12C09004)资助。 通讯作者: 张智君, E-mail: zjzhang@zju.edu.cn
837
838 心 理 学 报 47卷
过的三联体(如pa-la-pi)或偶尔呈现的三联体(如bi-ku-da)。他们认为, 婴儿是通过“统计运算” (statistical computation)音节间的转接概率而习得随后, 一些研究者语言规律的(Saffran et al., 1996)。
在成人的视觉通道中也发现了类似的统计学习能力(Fiser & Aslin, 2001, 2002), 并将其称为“视觉统计学习” (visual statistical learning, VSL)。他们给被试呈现图形序列, 该序列内的各个图片在空间位置(Fiser & Aslin, 2001)或时间顺序(Fiser & Aslin, 2002)上隐含统计规律, 但被试事先并不知道该规律。经过一定时间的熟悉后, 要求被试完成二选一迫选任务, 即每次先后呈现两个结构(如三联体), 其中一个为熟悉结构, 另一个为熟悉元素组成的伪结构, 要求被试确定哪个结构更熟悉, 即在熟悉阶段出现过。结果显示, 被试对熟悉结构的熟悉性判断显著高于伪结构。
以往研究发现, 这种统计学习机制在知觉和认知技能中广泛存在, 如因果结构知觉(Sobel, Tenenbaum, & Gopnik, 2004)、动作学习(Baldwin, Anderrson, Saffran, & Meyer, 2008)、视觉加工(Brady & Oliva, 2008; Fiser & Aslin, 2001, 2002; Kirkham, Slemmer, & Johnson, 2002; Yuille & Kersten, 2006)和语言学习(Conway, Bauernschmidt, Huang, & Pisoni, 2010; Goldwater, Griffiths, & Johnson, 2009)。另外, 被试在统计学习过程中并没有意识到材料之间存在统计结构(Brady & Oliva, 2008; Turk-Browne, Junge, & Scholl, 2005), 即他们只能从肯定例证(positive instances)中进行学习, 而不可能采用分析加工或假设验证的策略(Perruchet & Pacton, 2006)。基于此, 研究者认为统计学习具有自动化(Fiser & Aslin, 2001, 2002; Saffran et al., 1996; Turk-Browne et al., 2005)和无意识(Fiser & Aslin, 2001)等特点。
由于内隐学习(implicit learning)和统计学习范式均不告知被试学习任务, 即内隐学习也具有无意识特点(Willingham, Nissen, & Bullemer, 1989), 因此, 有研究者认为, 统计学习和内隐学习是一种现甚至象的两种不同形式(Perruchet & Pacton, 2006)。有研究者直接使用内隐统计学习(implicit statistical learning)概念来统和它们(Conway & Christiansen, 2006)。不过, 也有研究者认为, 被试在内隐学习范式下习得的是规则(rule), 而这种规则与具体刺激无关(Marcus, Vijayan, Bandi Rao, & Vishton, 如果该假设成立, 则内隐学习与统计学习是1999)。
不同的现象, 因为统计学习是被试通过统计运算刺
激之间转接概率来习得刺激间的统计规律关系, 转接概率与每个刺激直接相关。
对时间顺序结构的视觉统计学习能力非常重要, 它有利于人们掌握事物发生的顺序规律。近年来, 许多研究者对个体在视觉统计学习中能基于哪些特征进行统计运算非常关注, 结果发现人类不仅能基于视觉特征(Fiser & Aslin, 2002; Turk-Browne, Isola, Scholl, & Treat, 2008; Turk-Browne et al., 2005), 还能基于抽象语义信息(Brady & Oliva, 2008; Otsuka, Nishiyama, Nakahara, & Kawaguchi, 不过, 基于这些特征对时2013)加工时间顺序结构。
间顺序结构的视觉统计学习效果到底是精确的(specific), 还是灵活的(flexible), 以往的研究结果并不一致(Turk-Browne & Scholl, 2009; Otsuka et al., 2013)。也就是说, 在视觉统计学习中, 被试能基于哪些特征对统计规律进行何种程度的加工, 依然是关注的焦点。
有研究者认为, 个体的视觉统计学习是基于客体发生的, 视觉特征信息是否起作用取决于个体如何定义“客体” (Turk-Browne et al., 2008)。他们给被试呈现带有颜色的隐含时间顺序结构的无意义图形序列(如A-B-C), 要求被试在被动观看后完成二选一迫选任务, 即判断(A-B-C vs. A-E-I)哪一个在熟悉阶段出现过。结果发现:当图形的颜色在测试阶段与熟悉阶段中保持一致时, 被试表现出明显的视觉统计学习效果, 而当测试阶段图形的颜色变为单色(即只保留形状)或只呈现颜色块(即消除形状)时, 视觉统计学习的效果变弱或消失; 当图形某一视觉特征(颜色或形状)的变化在熟悉阶段具有规律性, 且测试阶段只对该视觉特征进行测试时, 视觉统计学习效果又重新出现(Turk-Browne et al., 2008)。
另外, 有研究者认为, 个体还可以基于类别(语义)信息进行视觉统计学习(Brady & Oliva, 2008)。他们采用自然场景(如森林、建筑、客厅等)探讨了个体是否可以基于类别(语义)信息进行视觉统计学习。在熟悉阶段, 给被试呈现1000张图片, 每张图片呈现300 ms, 图片之间的间隔700 ms, 要求被试探测重复出现的图片(无关任务)。在测试阶段, 要求被试完成图片三联体二选一迫选任务。与先前的实验不同, 该实验中每个三联体内部固定位置所呈现的图片属于某一类客体(如桥梁, 包括水泥结构、钢材结构、木质结构等), 而非特定客体。结果显示, 被试能以类别信息判断三联体的熟悉性, 表明个体在熟悉阶段能根据抽象的语义信息来加
7期 唐 溢等: 基于名人面孔视觉特征和语义信息的视觉统计学习 839
工时间顺序结构, 即被试能基于类别(语义)信息进行视觉统计学习(Brady & Oliva, 2008)。但是, 该研究不能排除被试的类别统计学习是基于同类场景中固有特征的可能性。对此, 有研究者在熟悉阶段呈现客体图片, 而在测试阶段呈现客体图片或客体名称。结果发现, 被试对视觉特征(客体图片)顺序三联体的熟悉性判断均显著高于随机水平, 对视觉特征倒序三联体的熟悉性判断为随机水平, 而对客体语义信息(客体名称)顺序三联体和倒序三联体的熟悉性判断均显著高于随机水平。根据这一结果, 他们认为, 对客体视觉特征和语义信息的加工是两个平行的过程:个体在提取视觉特征时间顺序的同时, 形成了不具有时间规律信息的语义组块(Otsuka et al., 2013)。
以往研究者一般采用倒序三联体测试方式来检验视觉统计学习的灵活性(Turk-Browne & Scholl, 2009; Otsuka et al., 2013)。他们在熟悉阶段给被试呈现隐含时间顺序结构(如A-B-C)的刺激序列, 而在测试阶段分别呈现顺序三联体(A-B-C vs. A-E-I)和倒序三联体(C-B-A vs. IEA), 让被试分别做熟悉性判断。他们认为, 顺序三联体测试反映被试对转换概率的统计学习, 而倒序三联体测试则反映被试基于该具体特征表征时间顺序结构的灵活性。也就是说, 如果被试对顺序三联体(如A-B-C)的熟悉性判断显著高于随机水平, 而对倒序三联体(如C-B-A)的熟悉性判断为随机水平, 则表明被试基于该特征的视觉统计学习是精细的; 而若对倒序三联体(如C-B-A)的熟悉性判断也显著高于随机水平, 则表明被试基于该特征的视觉统计学习具有灵活性, 即被试基于该特征的统计运算结果并不是基于精确的时间顺序信息进行的(Turk-Browne & Scholl, 2009)。
有研究发现, 被试基于视觉特征和语义信息的视觉统计学习效果的灵活性会受其他因素的影响。例如, Turk-Browne和Scholl (2009)发现, 如果在熟悉阶段呈现隐含时间顺序结构(如A-B-C)的无意义图形序列, 则被试在测试阶段会将顺序三联体(如A-B-C)和倒序三联体(如C-B-A)均显著判断为熟悉三联体, 但当测试情景改为比较顺序三联体和倒序三联体(A-B-C vs. C-B-A)的熟悉性时, 则被试会显著地将顺序三联体判断为熟悉三联体。该现象也存在于基于客体语义信息的视觉统计学习中(Otsuka et al., 2013)。这表明, 被试基于视觉特征和语义信息的视觉统计学习存在灵活性, 而这种灵活性受测
试情景的影响。但是, Otsuka等(2013)却发现, 当刺激材料包含语义信息的场景和类别客体时, 被试基于视觉特征的统计运算表现出精确加工的特点, 即抽象语义信息会易化基于视觉特征的视觉统计学习效果。他们进一步提出, 个体之所以表现出灵活的视觉统计学习效果, 是对统计结构进行组块加工(chunk)的结果, 因为在组块中元素间的时间顺序信息或空间位置信息具有不确定性(Otsuka et al., 2013)。
Otsuka等(2013)所使用的实验材料为类别语义信息(类别名称, common name), 与之相对应的是特定语义信息(特定名称, proper name) (比如, 建筑物名, 人名等)。有研究表明, 个体对两类语义信息的加工是分离的过程(Martins & Farrajota, 2006), 但也有研究发现人类对两者的加工存在关联(Joassin, Meert, Campanella, & Bruyer, 2007)。Otsuka等人(2013)考察了基于类别语义信息的视觉统计学效果, 而基于特定语义信息的视觉统计学习效果到底是如何, 还并未有相关的研究。
基于上述分析, 本研究将进一步检验视觉特征与语义信息的视觉统计学习在多大程度上能够精确加工时间顺序结构。
以上这些研究考察了人类对非社交主体(如无意义图形、场景、类别客体等)的统计运算能力, 而对社交主体(如人脸面孔)的统计运算能力到底如何, 目前并未有直接的研究。作为社会性动物, 人类与同类打交道的机会最频繁, 很多时候需要在非面对面的情况下掌握其他个体的信息, 因此拥有自动将人脸面孔与其特定名称联系起来的能力(Alvarez, Novo, & Fernandez, 2009)。人类对面孔的加工也比类别客体加工更深刻, 如面孔(尤其是名人)比客体更能吸引人类的注意(Langton, Law, Burton, & Scweinberger, 2008; Theeuwes & van der Stigchel, 2006)。ERPs研究表明, 在视觉特征加工阶段个体对面孔的加工比客体更精细, 能诱发更大的N170成分(Guillaumea et al., 2009)。个体对熟悉面孔的语义启动也比客体更充分, 能诱发更显著的N250成分(Pickering & Schweinberger, 2003)。名人面孔会导致更活跃的N400(Saavedra, Iglesias, & Olivares, 2010; Wiese & Schweinberger, 2011; Rugg & Curran, 2007; Germain-Mondona, Silvert, & Izaute, 2011)和P600(Saavedra et al., 2010), 而这些脑电成分主要与语义信息加工有关。以上研究表明, 个体对人脸面孔(特别是名人面孔)本身及其语义信息的加工更
840 心 理 学 报 47卷
精细。但是, 也有研究表明, 被试加工特定名称(如面孔名字)比类别名称(如袋鼠等)更困难(Ahmed, Arnold, Thompson, Graham, & Hodges, 2008; Bredart, 1993; Evrard, 2002; Semenza, 2006), 如Evrard (2002)的研究发现, 被试命名面孔名字时需要更长的时间, 他认为这是因为命名面孔名字需要更复杂和更多的认知资源。因此, 与基于客体语义信息的统计加工相比, 基于人类面孔语义信息的统计加工可能存在两种情况:精确的统计运算或组块的统计运算。
鉴于此, 本研究将采用人脸面孔和面孔名字作为实验材料, 考察被试基于面孔视觉特征与语义信息的视觉统计学习。
需要指出的是, 先前研究发现, 当被试基于同一实验材料的不同特征进行视觉统计学习时, 其视觉统计学习效果往往不同(Otsuka et al., 2013; Turk- Browne et al., 2008)。但是, 这些研究并没有探讨被试基于这些特征进行视觉统计学习的时间特点及其差异。研究表明, 负责面孔视觉特征(Sergent, Ohta, & McDonald, 1992; Kanwisher, McDermott, & Chun, 1997; Campanella et al., 2001)及其名字(Damasio, Grabowski, Tranel, Hichwa, & Damasio, 1996; Gorno-Tempini et al., 1998)加工的脑区是分离的。同时, 以往研究者采用ERPs技术对面孔加工的阶段进行了具体的分析(Alvarez et al., 2009), 发现面孔语义加工发生在视觉特征加工的基础之上(Bruce & Young, 1986; Burton, Bruce, & Johnson, 1990), 面孔视觉特征加工在刺激呈现170~200 ms左右就已完成(Bentin & Deouell, 2000), 而面孔语义信息加工则需要更长的时间。有研究者认为, 面孔语义信息的加工发生于450~650 ms (N400成分) (Huddy, Schweinberger, Jentzsch, & Burton, 2003); 也有研究者发现, 被试对面孔语义信息的加工发生于550~750 ms (Diaz, Lindin, Galdo-Alvarez, Facal, & Juncos-Rabadan, 2007); Alvarez等人(2009)则认 为, 面孔语义信息的加工发生于450~750 ms之间。
因此, 本研究还将通过调节面孔图片的呈现时间, 考察被试基于面孔视觉特征和语义信息进行统计运算的时间特征。
总之, 本研究以名人面孔为实验材料, 采用语义测试(Otsuka et al., 2013)和倒序三联体(Turk-Browne & Scholl, 2009)测试的视觉统计实验范式, 考察人类基于面孔视觉特征和语义信息进行视觉统计学习的特点。另外, 本研究还采用倒置面孔呈现范式, 深入探究视觉统计学习中的面孔特
性。以往研究表明, 倒置会破坏面孔结构信息的加工, 而不会破坏特征信息的加工(Freire, Lee, & 因此, 如Symons, 2000; Webster & MacLeod, 2011)。果个体基于正立面孔与倒置面孔视觉特征的视觉统计学习存在显著差异, 则说明基于视觉特征的视觉统计学习存在面孔特性, 即基于面孔视觉特征的视觉统计学习并非一般视觉特征的统计学习; 反之, 则基于视觉特征的视觉统计学习不存在面孔特性。因此, 本研究包含了以下5项实验:实验1与实验2分别采用图片和名字三联体为测试材料, 检验人类是否能基于面孔语义信息进行视觉统计学习; 实验3A和3B采用倒序三联体(如C-B-A)测试方式进一步探讨基于名人面孔视觉特征和语义信息进行视觉统计学习的灵活性, 分析视觉统计学习中被试对面孔视觉特征和语义信息的加工特点。实验4A和4B则通过操纵图片呈现时间(由实验3的1000 ms缩减到700 ms)考察个体基于面孔语义信息的统计加工过程是与语义加工同时发生, 还是发生在语义信息加工之后, 从而探讨视觉统计学习中个体基于视觉特征和语义信息的统计规律提取机制。实验5在实验4的基础上, 采用倒置面孔呈现范式, 验证基于名人面孔视觉特征的视觉统计学习是否具有面孔特异性。综合先前的研究成果, 我们假设:在实验1与实验2中, 被试基于面孔视觉特征与语义信息的视觉统计学习效果显著, 表现为对熟悉(视觉特征和语义信息)三联体的熟悉性判断都显著高于随机水平; 在实验3A和3B中, 被试基于面孔视觉特征和语义信息的视觉统计学习均能精确加工时间顺序结构, 表现为对熟悉(视觉特征和语义信息)三联体的熟悉性判断都显著高于随机水平, 而对倒序(视觉特征和语义信息)三联体的熟悉性判断都为随机水平; 在实验4A中, 被试基于面孔视觉特征的视觉统计学习不会受图片呈现时间调整的影响, 表现与实验3A相同, 而在实验4B中, 基于语义信息的视觉统计学习能力减弱或消失, 表现为对顺序和倒序语义三联体的熟悉性判断均显著高于随机水平或者表现为随机水平。在实验5中, 被试基于正立面孔的视觉统计学习效果将显著高于倒置面孔视觉特征的视觉统计学习效果。
2 实验1 基于名人面孔的视觉统计
学习
探讨个体是否能对名人面孔进行视觉统计学习。
7期 唐 溢等: 基于名人面孔视觉特征和语义信息的视觉统计学习 841
2.1 方法 2.1.1 被试
15名某大学本科生或研究生(6名男生, 9名女
他们的年生)为被试, 均没有参加过其他相关实验。
龄在19~24岁之间, 均为右利手, 视力或矫正视力正常, 无色盲、色弱。他们自愿参加实验, 实验结束后获得学分或一定的报酬。 2.1.2 装置与材料
实验装置为一台PentiumⅣ PC 电脑, Dell 17英寸纯平显示器, 分辨率为1024×768, 刷新率为85 Hz, 屏幕背景为灰色。被试距离屏幕的距离为70 cm。
实验材料为12张名人面孔, 均来自网络图片。所有面孔的高度在6.56°~7.04°之间, 宽度在4.92°~ 5.41°之间, 呈现在屏幕中央, 均进行去色处理, 直视被试。具体见图1。
这样的重复在整个过程中随机出现96次, 该操作不会影响三联体结构的完整, 且有助于防止被试对三联体结构信息进行外显学习(Otsuka et al., 2013)。在熟悉阶段, 被试从事与学习无关的具体见图2A。
任务, 即准确且快速地对重复出现的面孔进行按键反应。具体地说, 当后一面孔图片与前一面孔图片相同时, 按“空格”键进行反应。该任务可以很好地阻止被试对图片的顺序结构进行外显学习(Turk-Browne et al., 2005)和被动观看(Brady & Oliva, 2008)。需特别强调的是, 在整个实验过程中都不会告诉被试与图片呈现结构有关的任何信息。此外, 在正式实验(熟悉阶段)开始之前, 让被试完成6个试次的重复探测任务作为练习, 练习所使用的实验材料不在正式实验中出现。熟悉阶段大约持续20 min。
图1 实验1采用的材料(名人面孔及名字)
2.1.3 设计与程序
在实验开始之前, 所有被试都需要完成名人面孔熟悉程度的测试, 即在电脑屏幕中央呈现名人的面孔, 要求被试快速说出面孔对应的名字。如果被试不能一次性成功报告所有面孔的名字, 则将不参与正式实验。
正式实验与先前研究(Turk-Browne et al., 2008; Otsuka et al., 2013)相同, 也包括两个阶段:熟悉阶段与测试阶段。
熟悉阶段:在屏幕中央呈现面孔图片序列, 每张面孔每次呈现300 ms, 两张面孔之间间隔700 ms。12张面孔组成4个三联体, 每个三联体重复96次, 总共呈现1152个面孔刺激。三联体内部的图片位4个置固定, 且顺序总是一致的(如A-B-C, J-K-L)。三联体在整个实验过程中随机出现并遵循以下规则:同一三联体不连续重复(如A-B-C-A-B-C)且两个三联体也不连续重复(如A-B-C-G-H-I-A-B-C-G- H-I)。在面孔呈现过程中, 三联体首或尾的图片随机插入重复图片(如或
图2 实验1熟悉阶段(A)和测试阶段(B)的刺激示例(C
为实验2测试阶段的刺激)
测试阶段:在熟悉阶段结束后, 立即让被试进行二选一迫选测试。具体地说, 先在屏幕中央呈现白色“+” (0.8°×0.8°), 持续1000 ms, 然后连续呈现两个三联体(1个试次), 其中每个图片的呈现时间为300 ms, 两个图片之间的间隔为700 ms, 两个三联体之间的间隔为1000 ms。在每个试次中, 一个三联体的图片顺序是熟悉阶段出现过的(如A-B-C), 另一个为伪三联体, 它的图片来自熟悉阶段的图片, 但不是出现过的三联体(如A-E-I)。在6张图片呈现后, 屏幕中央出现一个小红点(0.5°×0.5°), 要求被试判断两个三联体中哪一个是熟悉阶段出现过的, 如果是前一个三联体, 按数字“1”键, 反之按“2”键,
本文关键词:基于名人面孔视觉特征和语义信息的视觉统计学习,,由笔耕文化传播整理发布。
本文编号:114275
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/114275.html