中文短文本聚合模型研究
本文选题:中文短文本 切入点:聚合模型 出处:《软件学报》2017年10期 论文类型:期刊论文
【摘要】:中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通过快速匹配和精细匹配两个关键步骤可以大幅度降低匹配的候选对数量,并保证匹配的精度.针对传统短文本相似度算法的不足,提出了一种新颖的广义Jaro-Winkler相似度算法,并从理论上分析了该算法的参数特性.通过对不同数据集上的商户信息数据进行聚合实验,结果表明,新算法与传统算法相比,在匹配准确率和稳定性上具有最优的性能.
[Abstract]:The purpose of Chinese short text aggregation is to match the text information belonging to the same object in two data sets, and to avoid matching the short text information that does not belong to the same object. This study is of great theoretical and practical significance for the integration of multi-source and heterogeneous short text data resources. An effective Chinese text aggregation model is proposed. Through the two key steps of fast matching and fine matching, the number of candidate pairs can be greatly reduced and the accuracy of matching can be guaranteed. A novel generalized Jaro-Winkler similarity algorithm is proposed to overcome the shortcomings of the traditional text text similarity algorithm. The experimental results show that the new algorithm has the best performance in matching accuracy and stability compared with the traditional algorithm.
【作者单位】: 电子科技大学计算机科学与工程学院互联网科学中心;电子科技大学大数据研究中心;中国银联股份有限公司电子支付研究院;
【基金】:国家自然科学基金(61300018) 中国银联-电子科技大学-金融大数据研究项目~~
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 巴桑顿珠;顾忠顺;刘远明;;地图聚合模型研究与实现[J];西藏科技;2010年04期
2 杨娟;;相交快速匹配空域错误隐藏算法[J];信息与电脑(理论版);2010年02期
3 王迎庆 ,夏振华;语音模式中基于启发式搜取的快速匹配算法[J];南京航空航天大学学报;1988年01期
4 熊国清,于起峰;用于实时跟踪的快速匹配算法[J];计算机辅助设计与图形学学报;2002年01期
5 马社祥;刘铁根;;多分辨逐步消除快速匹配算法[J];计算机应用;2006年02期
6 陶波,,于志伟;一种基于自学习阈值的快速匹配方法[J];计算机应用;1995年02期
7 安萌;姜志国;;弹上下视景象目标快速匹配的技术实现[J];系统工程与电子技术;2008年11期
8 裘东;一种快速匹配算法在拼音输入整句翻译中的应用[J];上海计量测试;2003年01期
9 丁明跃,王宇军,彭嘉雄;一类快速匹配算法的模拟与比较[J];数据采集与处理;1990年02期
10 李雪;薛一波;王春露;;一种适用于大规模特征集的快速匹配算法[J];计算机工程与应用;2007年34期
相关会议论文 前1条
1 吕科;耿国华;周明全;;文物复原中三维轮廓曲线的快速匹配方法[A];第一届全国几何设计与计算学术会议论文集[C];2002年
相关硕士学位论文 前4条
1 高亮;音乐旋律快速匹配技术的研究[D];上海交通大学;2007年
2 陈伟;数字图像的快速匹配技术研究[D];山东师范大学;2012年
3 赵晶;基于双目视差的三维重建中的特征检测和快速匹配技术的研究[D];内蒙古农业大学;2010年
4 王渊民;基于SIFT算法的图像快速匹配系统设计[D];成都理工大学;2014年
本文编号:1601375
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1601375.html