新时期丝绸文化演变的大数据解读
发布时间:2021-09-25 15:02
为解决新时代背景下丝绸文化蜕变的数理实证问题,文章针对丝绸文化特点构建其文化特征体系。利用互联网采集的大数据进行丝绸文化特征体系的填充,采用人工归类与类属计算相结合的方法,对特征词的综合上下文性质进行量化,解决模糊特征的归类问题;应用该文化特征体系,结合特征词频率统计方法,考察丝绸文化的特征分布及其新时代内涵;通过在时间轴上跟踪文化特征分布的变化,揭示丝绸文化演进的失衡区间和"三分段"模式,并分析失衡区间中的拐点现象及其成因。通过将大数据采集和计量方法与传统文化特征体系无缝衔接,研究以数理实证方式展示了丝绸文化的内涵升级和结构重组,有助于深入理解"一带一路"影响下传统文化的现实状态和发展方向。
【文章来源】:丝绸. 2020,57(12)北大核心CSCD
【文章页数】:6 页
【部分图文】:
丝绸文化大数据采集与预处理
根本上,一个特征词的内涵由它的综合上下文决定。文化大数据中每个特征词序列,构成该特征词的可能出现一个或多个场合;该特征词在所有场合中的上下文,构成它的综合上下文。假定采集到的文化大数据是完备的,即场合是充分的,则一个特征词在特定文化语境中的涵义必然是由其综合上下文规定的。这一观点可具体阐释为三条:1)所有场合中的上下文共同规定一个特征词的涵义;2)在一个给定的场合,目标特征词之外的所有其他特征词,共同规定该目标词在该场合中的涵义;3)在一个给定的场合,各个特征词对目标特征词之规定性的贡献,随着相对距离的增加而减少。基于上述思路,本研究通过分析其综合上下文来判断一个特征词的类属。在对文本大数据统计句子长度的基础上,本研究采用了长度为8的上下文窗口,如图3所示。图3所示的特征词序列,给出特征词“汉服”出现的一个场合,其上下文由序列中除“汉服”之外的所有其他特征词共同构成。一个序列中可能包含数千特征词,在实际操作中只能考虑一定窗口范围内的特征词的影响,该窗口范围称为上下文窗口,上下文窗口是上下文的实践简化形式。由于词义的影响力主要集中在句子内部,因而句子长度(指平均条件下构成一个句子的有效特征词个数)可作为上下文窗口大小的参考。
基于上述思路,本研究通过分析其综合上下文来判断一个特征词的类属。在对文本大数据统计句子长度的基础上,本研究采用了长度为8的上下文窗口,如图3所示。图3所示的特征词序列,给出特征词“汉服”出现的一个场合,其上下文由序列中除“汉服”之外的所有其他特征词共同构成。一个序列中可能包含数千特征词,在实际操作中只能考虑一定窗口范围内的特征词的影响,该窗口范围称为上下文窗口,上下文窗口是上下文的实践简化形式。由于词义的影响力主要集中在句子内部,因而句子长度(指平均条件下构成一个句子的有效特征词个数)可作为上下文窗口大小的参考。图3亦给出了除目标词以外的各个特征词的类属(X代表“物质”、Y代表“社会”、Z代表“精神”),及其与目标词的相对距离。在该窗口中,特征词“汉服”的类属(以C表示)可表示为其上下文类属的合成,如式(1)得出:
【参考文献】:
期刊论文
[1]基于主题分布优化的模糊文本分类研究[J]. 梁艳红,坎启轩,苏翌. 计算机工程. 2019(10)
[2]“一带一路”背景下“丝绸之路”历史文化遗产研究的双向视域[J]. 李丕宇. 齐鲁艺苑. 2017(02)
[3]论建设21世纪中华民族文化共同体[J]. 傅才武,严星柔. 华中师范大学学报(人文社会科学版). 2016(05)
[4]浅析“一带一路”跨界文化传播对经济发展的促进[J]. 秦子瑜. 新闻传播. 2016(13)
[5]文化计算方法与应用综述[J]. 赵海英,贾耕云,潘志庚. 计算机系统应用. 2016(06)
[6]大数据视野下的19世纪“海上丝绸之路”——以丝绸、瓷器与茶叶的文化影响力为中心[J]. 龚为纲,罗教讲. 学术论坛. 2015(12)
[7]一带一路文化建设与丝绸之路文化复兴[J]. 李希光. 当代传播. 2015(06)
[8]主题网络爬虫研究综述[J]. 于娟,刘强. 计算机工程与科学. 2015(02)
[9]中华文化基因抽取与特征建模探索[J]. 邵培仁,林群. 徐州师范大学学报(哲学社会科学版). 2012(02)
[10]知识抽取中的停用词处理技术[J]. 化柏林. 现代图书情报技术. 2007(08)
本文编号:3409947
【文章来源】:丝绸. 2020,57(12)北大核心CSCD
【文章页数】:6 页
【部分图文】:
丝绸文化大数据采集与预处理
根本上,一个特征词的内涵由它的综合上下文决定。文化大数据中每个特征词序列,构成该特征词的可能出现一个或多个场合;该特征词在所有场合中的上下文,构成它的综合上下文。假定采集到的文化大数据是完备的,即场合是充分的,则一个特征词在特定文化语境中的涵义必然是由其综合上下文规定的。这一观点可具体阐释为三条:1)所有场合中的上下文共同规定一个特征词的涵义;2)在一个给定的场合,目标特征词之外的所有其他特征词,共同规定该目标词在该场合中的涵义;3)在一个给定的场合,各个特征词对目标特征词之规定性的贡献,随着相对距离的增加而减少。基于上述思路,本研究通过分析其综合上下文来判断一个特征词的类属。在对文本大数据统计句子长度的基础上,本研究采用了长度为8的上下文窗口,如图3所示。图3所示的特征词序列,给出特征词“汉服”出现的一个场合,其上下文由序列中除“汉服”之外的所有其他特征词共同构成。一个序列中可能包含数千特征词,在实际操作中只能考虑一定窗口范围内的特征词的影响,该窗口范围称为上下文窗口,上下文窗口是上下文的实践简化形式。由于词义的影响力主要集中在句子内部,因而句子长度(指平均条件下构成一个句子的有效特征词个数)可作为上下文窗口大小的参考。
基于上述思路,本研究通过分析其综合上下文来判断一个特征词的类属。在对文本大数据统计句子长度的基础上,本研究采用了长度为8的上下文窗口,如图3所示。图3所示的特征词序列,给出特征词“汉服”出现的一个场合,其上下文由序列中除“汉服”之外的所有其他特征词共同构成。一个序列中可能包含数千特征词,在实际操作中只能考虑一定窗口范围内的特征词的影响,该窗口范围称为上下文窗口,上下文窗口是上下文的实践简化形式。由于词义的影响力主要集中在句子内部,因而句子长度(指平均条件下构成一个句子的有效特征词个数)可作为上下文窗口大小的参考。图3亦给出了除目标词以外的各个特征词的类属(X代表“物质”、Y代表“社会”、Z代表“精神”),及其与目标词的相对距离。在该窗口中,特征词“汉服”的类属(以C表示)可表示为其上下文类属的合成,如式(1)得出:
【参考文献】:
期刊论文
[1]基于主题分布优化的模糊文本分类研究[J]. 梁艳红,坎启轩,苏翌. 计算机工程. 2019(10)
[2]“一带一路”背景下“丝绸之路”历史文化遗产研究的双向视域[J]. 李丕宇. 齐鲁艺苑. 2017(02)
[3]论建设21世纪中华民族文化共同体[J]. 傅才武,严星柔. 华中师范大学学报(人文社会科学版). 2016(05)
[4]浅析“一带一路”跨界文化传播对经济发展的促进[J]. 秦子瑜. 新闻传播. 2016(13)
[5]文化计算方法与应用综述[J]. 赵海英,贾耕云,潘志庚. 计算机系统应用. 2016(06)
[6]大数据视野下的19世纪“海上丝绸之路”——以丝绸、瓷器与茶叶的文化影响力为中心[J]. 龚为纲,罗教讲. 学术论坛. 2015(12)
[7]一带一路文化建设与丝绸之路文化复兴[J]. 李希光. 当代传播. 2015(06)
[8]主题网络爬虫研究综述[J]. 于娟,刘强. 计算机工程与科学. 2015(02)
[9]中华文化基因抽取与特征建模探索[J]. 邵培仁,林群. 徐州师范大学学报(哲学社会科学版). 2012(02)
[10]知识抽取中的停用词处理技术[J]. 化柏林. 现代图书情报技术. 2007(08)
本文编号:3409947
本文链接:https://www.wllwen.com/projectlw/qgylw/3409947.html