当前位置:主页 > 经济论文 > 电子商务论文 >

基于带有通配符序列模式和概率主题模型的多文档摘要技术研究

发布时间:2021-07-09 20:51
  随着信息技术的迅猛发展,人们可以获取大量的文本数据;例如:Web新闻、科技文献、数字图书、电子邮件和微博等。如何有效地组织和管理海量的文本数据,快速、准确地从中找到用户所需的信息,成为智能信息处理研究领域面临的挑战之一。为此,从大量文档中提取简洁摘要信息的多文档摘要技术吸引了研究人员的广泛兴趣。近年来,电子商务和社交网络的快速发展催生出大量的书评影评、网络聊天、产品介绍等形式的短文本。这些短文本数据包含了大量有价值的隐含信息,对人们的日常生活产生了很大的影响。与长文档处理方法相比,因为短文档词汇具有非常少的词共现信息,使得传统的多文档摘要方法直接进行处理时效果不佳。因此,有效地提供精简内容的多文档摘要技术具有重要的研究价值和现实意义。本文在长文档的摘要技术和短文档的摘要技术研究的基础上,提出几种基于带通配符序列模式和概率主题模型的多文档摘要技术算法。主要研究工作如下:(1)提出一种基于闭合模式的多文档摘要算法。从词的计算角度上说,已有的多文档摘要提取方法可以分为基于词的方法和基于本体的方法:基于词的方法很难处理一词多义和多词一义的问题,基于本体的方法考虑了词语的语义信息,但是受限于具体... 

【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校

【文章页数】:112 页

【学位级别】:博士

【部分图文】:

基于带有通配符序列模式和概率主题模型的多文档摘要技术研究


图3.6基于模式的摘要算法的架构??Fi.?3.6?The?outline?ofattern-based?summarization??

参数,实验结果分析,算法,细节


.linn?I?-??i圓I??ROUGE-2?R0UGB4??图3.?7不同方法在ROUG-2和ROUGE-4上F-measures的对比??Fig.?3.7?Comparison?of?the?methods?in?terms?of?ROUGE-2?and?ROUGE-4?F-measures??3.4.3实验结果分析??这一节将讨论更多实验的细节。我们采用相对提高对比结果,这里相对提高定??义为(6-a)/a,其中M皮拿来与a比较。实验中6是PatSum算法,a是我们将比较??的算法。表3.9显示了?PatSum与其他方法比较的结果。??表3.9中,“+”意味着PatSum有更好的结果,是相反的意思。相比于最好??的基于本体的方法(Yago),?PatSum?分别提高了?0.07,?0.09,?0.07,?0.18,?0.18?和?0.18。??相比于基于词的方法MSSF,PatSum分别提高了?0.04,?0.04;?0.04,?0.18,?0.18和0.18。??此外,其他的发现如下:??(1)

参数,信息性,新颖性,变化情况


谌?禄?诖?ㄅ浞?蛄心J降亩辔牡嫡??惴ㄑ绣常崳?当参数X变化情况下,PatSum的性能如图3.8所示。可以看出,当增加参数入??的值,性能先增加后降低。因为X的功能是权衡信息性和新颖性的,当X是非常小??时,PatSum没考虑内容的信息性。相对应地,当人大于某一个阈值时(e.g.,0.5),少??考虑了算法的新颖性。因为信息性和新颖性对摘要系统都至关重要,最好的实验??结果是人等于0/5〇wp=4)。??当最小支持度变化情况下,PatSum的性能如图3.9所示。在情况下,??PatSum可以得到最好的结果。进一步的结果如图3.9(b)所示,当X从2到7,PatSum??相对稳定。因为我们的算法能够解决算法中低频问题,意味着PatSum很少被最小??支持度影响。当sup足够大的时候(大于6),实验结果很差归功于仅仅挖掘出很少??的模式。??0.103?-?0.02?-??0.102?-??0.101?0.019???\??i?ai?—?V?i?V??S?0.099?1?0.018?-?\??!?0.098?-?*?I??0.097?Q.Q17?_?**??0.096?-??0?095?^?0.016???????????2?3?4?5?6?7?23456?7???sup??sup??(a)?ROUGE-2?F-measure?(b)?ROUGE-4?F-measure??图3.?9参数sup对PatSum性能的影响(1=0.5)??Fig.?3.9?Impact?of?sup?on?the?PatSum?performance?under?X

【参考文献】:
期刊论文
[1]带通配符和One-Off条件的序列模式挖掘[J]. 吴信东,谢飞,黄咏明,胡学钢,高隽.  软件学报. 2013(08)
[2]一种求解MPMGOOC问题的启发式算法[J]. 武优西,吴信东,江贺,闵帆.  计算机学报. 2011(08)



本文编号:3274475

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/3274475.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ee29d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com