当前位置:主页 > 科技论文 > 软件论文 >

面向迁移学习的文本特征对齐算法

发布时间:2018-07-31 14:47
【摘要】:源领域和目标领域特征空间的不一致导致迁移学习准确率下降。为此,提出一种基于Word2Vec的不同领域特征对齐算法。只选取形容词、副词、名词、动词作为特征,针对每种词性,选择源领域和目标领域的枢纽特征,分别在源领域和目标领域为该枢纽特征计算出与之语义相似度最大的非枢纽特征,将其作为相似枢纽特征,从而为每个枢纽特征构成一个相似枢纽特征对。将出现在这些领域中的每一个相似枢纽特征按照枢纽特征对进行特征替换,从而将不同领域语义相似的特征进行对齐,并在特征替换后的源领域和目标领域数据上进行机器学习。实验结果表明,该算法的平均分类精度达到88.2%,高于Baseline算法。
[Abstract]:The inconsistency of feature space between source domain and target domain leads to the reduction of migration learning accuracy. For this reason, a new feature alignment algorithm for different domains based on Word2Vec is proposed. Only adjectives, adverbs, nouns and verbs are selected as the characteristics, and for each part of speech, the pivotal features of the source and target fields are selected. The non-hub features with the greatest semantic similarity are calculated in the source domain and the target domain, respectively, which are regarded as similar hub features, so as to form a similar hub feature pair for each hub feature. Each similar hub feature that appears in these domains is replaced by a feature pair of hub features to align the semantic similarity features of different domains, Machine learning is carried out on the source and target domain data after feature replacement. The experimental results show that the average classification accuracy of this algorithm is 88. 2%, which is higher than that of Baseline algorithm.
【作者单位】: 大连理工大学计算机科学与技术学院;大连外国语大学软件学院;
【基金】:国家自然科学基金(61572102,61562080) 大连外国语大学科研基金(2014XJQN14)
【分类号】:TP391.1

【相似文献】

相关期刊论文 前4条

1 赖清楠;马皓;宋维佳;李婷婷;蒋广学;张蓓;;高校BBS与微博的用户社交行为特征分析[J];通信学报;2013年S2期

2 衣丽霞;王辉;籍晓红;;情感分析中极性副词的自动扩展[J];计算机应用研究;2013年07期

3 郑诚;杨希;张吉赓;;结合情感词典与规则的微博情感极性分类方法[J];电脑知识与技术;2014年13期

4 ;[J];;年期

相关硕士学位论文 前1条

1 梁东旭;基于产品评论的垃圾评论者检测方法[D];大连理工大学;2014年



本文编号:2155922

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2155922.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f4995***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com