论数字人文研究中可视化数据的意义与价值——以数字概念史研究为例
发布时间:2021-11-29 09:47
<正>目前人文学界对数据可视化(data visualization)抱持两种态度:一种认为是炫技,亦即认为通过计算机技术,虽可将复杂数据转化为多种色彩缤纷、形式多样的视觉印象(visual impression),但可视化的结果往往只是如《老子》所言"五色令人目盲",并未给人文学界带来任何实质上的助益;另一种则主张利器说,认为通过数据可视化技术(visualization techniques),能将原本静态的复杂数据,以动态的方式加以呈现,在色彩、
【文章来源】:文艺理论与批评. 2020,(02)北大核心CSSCI
【文章页数】:7 页
【部分图文】:
“万国”、“世界”和“国际”的使用次数(1860-1915)
当然,如果概念史研究只是将数据可视化运用在概念词频的时间序列分布上的话,那还不足以证明数据可视化技术对概念史研究的重要性,因为概念词频的年代数据还是勉强可以用文字列表的方式呈现的,读者能够在阅读文字表格数据后依靠想像掌握概念群的发展图像。然而数据可视化技术,绝不仅限于概念词频的时间序列描绘,还有共现概念群可视化、词缀概念群可视化以及网络概念群可视化等技术。一旦涉及这些更为复杂的概念群的分合关系研究,若没有可视化技术协助,呈现与描述研究结果就变得非常困难了。数据可视化技术究竟对于概念史研究还有哪些助益,可从以下三个案例进一步考察。首先,共现概念群研究法能够通过可视化技术撷取、呈现与代表核心概念的关键词共同出现的高频关键词,而后还可同时观察这一概念群在长时段中的新陈代谢现象。如图2,即是通过数据可视化技术,快速地计算并描绘出多达一亿两千万字的“中国近现代思想史专业数据库(1830-1930)”中,1895-1900年、1901-1914年、1915-1924年三个重要时期史料文献中,与“平等”概念高频共现的概念群的数据可视化图像。
其次,词缀概念群研究法通过可视化技术可揭示中国近代知识分子是如何以及在哪些时间节点制造出新词汇,用以描述、表达与传统中国截然不同的新世界的发展历程的。在古代中国,由于社会发展相对缓慢,新事物不多,因此可用较少的词汇概念去理解与描述世界,但在近代开眼看世界后,人们面对着与过去千年完全不同的新世界,就需要更多的词汇概念去加以描绘。因此,近代中国知识分子配合时代需要,生产了一批新词汇,其中可见诸多原有概念从传统到现代朝着细化与专业化方向前进,为的就是能够指称与描述西方世界中的各种新事物。例如“美”的概念,就在近代中国受到西学与日本化的“东学”7知识影响,开启了现代转向,从传统中国“美”的概念中分化出了“美术”、“美学”、“美感”、“美育”等过去没有的新概念,用以描述现代新世界。因此研究者可尝试通过考察中国重要的传统单音节词转向多音节词的发展轨迹,去揭示中国传统概念的现代转化历程。然而,要用线性的文字形式去描述单音节词转向多音节词的发展过程是很难的,可视化技术则能很好地捕捉、呈现出所有由单音节词衍生的多音节词以及其时间序列变化。如图4所示,研究者可以快速完整地掌握近现代中国由“美”字衍生出的所有多音节词,而可视化图像中的箭头粗细,则表示对应的多音节词的使用频率,从而揭示该词的重要性。而后,还可利用刚才提到过的概念群的可视化技术,将“美”的概念词族进行时间序列的描绘,以概念的时间群聚现象为标准,可将“美”的相关概念群进行分期,研究者可全面地掌握“美”的概念群的分期出现与发展过程,从而揭示出“美”的概念在近代是如何随着时空语境的变化而流动与位移的。8其三,概念群网络研究法通过可视化方法可掌握概念群间的系统结构,可以考察一个话语论述所包含的概念群中所有概念的关系与连带现象。哪些概念与概念间为强连带(strong ties)或弱连带(weak ties)?哪个概念为连接不同概念群的概念桥梁(bridge)?哪个概念是不属于任何概念群但担负起连结概念群作用的联络概念(liaison)?哪个概念是很少或不参加任何概念群的孤独概念(isolate)?哪个概念是概念网络中有着最多关系连结的明星概念(star)?从上述这些角度,概念史研究者可深入考察概念的结构洞(structural hole)以及概念群中的派系(clique),进行概念群的网络位置分析(positional analysis)。9通过运用概念群网络分析的可视化技术,研究者将能分辨出在话语中不同概念的重要性差异。例如图510显示出《新青年》第一卷所有文章论述中分支度(degree)最高的概念,即“政治”概念,与另外9个重要概念连带,这意味着“政治”是《新青年》第一卷所有文本中作为核心的明星概念,是第一卷所有文章论述中都难以绕过的重要概念,若没有数字人文方法与可视化技术的协助,一般概念史方法是难以捕捉到“政治”概念在《新青年》第一卷中作为明星概念的重要性的。在未使用可视化技术前,研究者只能将史料文本进行平面与线性的阅读、分析与讨论,但通过运用可视化技术,研究者就能以动态且立体的形式去理解、分析与呈现研究结果,看出概念间的动态连带发展过程,就此与一般概念史方法有所区隔,得以更为细致地与动态地揭示不同概念在概念群网络位置中的特殊性与重要性。
【参考文献】:
期刊论文
[1]中国近代平等观念形成之数字人文研究:以报刊为中心[J]. 邱伟云,金观涛,刘青峰,刘昭麟. 清华大学学报(哲学社会科学版). 2018(06)
[2]概念史研究的中国转向[J]. 孙江. 学术月刊. 2018(10)
[3]18世纪德语历史文献的数据挖掘:以主题模型为例[J]. 王涛. 学海. 2017(01)
[4]词汇语义变化与社会变迁定量观测与分析[J]. 刘知远,刘扬,涂存超,孙茂松. 语言战略研究. 2016(06)
[5]“选精”、“集粹”与“宋代江南农业革命”——对传统经济史研究方法的检讨[J]. 李伯重. 中国社会科学. 2000(01)
本文编号:3526288
【文章来源】:文艺理论与批评. 2020,(02)北大核心CSSCI
【文章页数】:7 页
【部分图文】:
“万国”、“世界”和“国际”的使用次数(1860-1915)
当然,如果概念史研究只是将数据可视化运用在概念词频的时间序列分布上的话,那还不足以证明数据可视化技术对概念史研究的重要性,因为概念词频的年代数据还是勉强可以用文字列表的方式呈现的,读者能够在阅读文字表格数据后依靠想像掌握概念群的发展图像。然而数据可视化技术,绝不仅限于概念词频的时间序列描绘,还有共现概念群可视化、词缀概念群可视化以及网络概念群可视化等技术。一旦涉及这些更为复杂的概念群的分合关系研究,若没有可视化技术协助,呈现与描述研究结果就变得非常困难了。数据可视化技术究竟对于概念史研究还有哪些助益,可从以下三个案例进一步考察。首先,共现概念群研究法能够通过可视化技术撷取、呈现与代表核心概念的关键词共同出现的高频关键词,而后还可同时观察这一概念群在长时段中的新陈代谢现象。如图2,即是通过数据可视化技术,快速地计算并描绘出多达一亿两千万字的“中国近现代思想史专业数据库(1830-1930)”中,1895-1900年、1901-1914年、1915-1924年三个重要时期史料文献中,与“平等”概念高频共现的概念群的数据可视化图像。
其次,词缀概念群研究法通过可视化技术可揭示中国近代知识分子是如何以及在哪些时间节点制造出新词汇,用以描述、表达与传统中国截然不同的新世界的发展历程的。在古代中国,由于社会发展相对缓慢,新事物不多,因此可用较少的词汇概念去理解与描述世界,但在近代开眼看世界后,人们面对着与过去千年完全不同的新世界,就需要更多的词汇概念去加以描绘。因此,近代中国知识分子配合时代需要,生产了一批新词汇,其中可见诸多原有概念从传统到现代朝着细化与专业化方向前进,为的就是能够指称与描述西方世界中的各种新事物。例如“美”的概念,就在近代中国受到西学与日本化的“东学”7知识影响,开启了现代转向,从传统中国“美”的概念中分化出了“美术”、“美学”、“美感”、“美育”等过去没有的新概念,用以描述现代新世界。因此研究者可尝试通过考察中国重要的传统单音节词转向多音节词的发展轨迹,去揭示中国传统概念的现代转化历程。然而,要用线性的文字形式去描述单音节词转向多音节词的发展过程是很难的,可视化技术则能很好地捕捉、呈现出所有由单音节词衍生的多音节词以及其时间序列变化。如图4所示,研究者可以快速完整地掌握近现代中国由“美”字衍生出的所有多音节词,而可视化图像中的箭头粗细,则表示对应的多音节词的使用频率,从而揭示该词的重要性。而后,还可利用刚才提到过的概念群的可视化技术,将“美”的概念词族进行时间序列的描绘,以概念的时间群聚现象为标准,可将“美”的相关概念群进行分期,研究者可全面地掌握“美”的概念群的分期出现与发展过程,从而揭示出“美”的概念在近代是如何随着时空语境的变化而流动与位移的。8其三,概念群网络研究法通过可视化方法可掌握概念群间的系统结构,可以考察一个话语论述所包含的概念群中所有概念的关系与连带现象。哪些概念与概念间为强连带(strong ties)或弱连带(weak ties)?哪个概念为连接不同概念群的概念桥梁(bridge)?哪个概念是不属于任何概念群但担负起连结概念群作用的联络概念(liaison)?哪个概念是很少或不参加任何概念群的孤独概念(isolate)?哪个概念是概念网络中有着最多关系连结的明星概念(star)?从上述这些角度,概念史研究者可深入考察概念的结构洞(structural hole)以及概念群中的派系(clique),进行概念群的网络位置分析(positional analysis)。9通过运用概念群网络分析的可视化技术,研究者将能分辨出在话语中不同概念的重要性差异。例如图510显示出《新青年》第一卷所有文章论述中分支度(degree)最高的概念,即“政治”概念,与另外9个重要概念连带,这意味着“政治”是《新青年》第一卷所有文本中作为核心的明星概念,是第一卷所有文章论述中都难以绕过的重要概念,若没有数字人文方法与可视化技术的协助,一般概念史方法是难以捕捉到“政治”概念在《新青年》第一卷中作为明星概念的重要性的。在未使用可视化技术前,研究者只能将史料文本进行平面与线性的阅读、分析与讨论,但通过运用可视化技术,研究者就能以动态且立体的形式去理解、分析与呈现研究结果,看出概念间的动态连带发展过程,就此与一般概念史方法有所区隔,得以更为细致地与动态地揭示不同概念在概念群网络位置中的特殊性与重要性。
【参考文献】:
期刊论文
[1]中国近代平等观念形成之数字人文研究:以报刊为中心[J]. 邱伟云,金观涛,刘青峰,刘昭麟. 清华大学学报(哲学社会科学版). 2018(06)
[2]概念史研究的中国转向[J]. 孙江. 学术月刊. 2018(10)
[3]18世纪德语历史文献的数据挖掘:以主题模型为例[J]. 王涛. 学海. 2017(01)
[4]词汇语义变化与社会变迁定量观测与分析[J]. 刘知远,刘扬,涂存超,孙茂松. 语言战略研究. 2016(06)
[5]“选精”、“集粹”与“宋代江南农业革命”——对传统经济史研究方法的检讨[J]. 李伯重. 中国社会科学. 2000(01)
本文编号:3526288
本文链接:https://www.wllwen.com/wenyilunwen/wenxuepinglunlunwen/3526288.html