时间相关文本序列挖掘的关键技术研究
本文选题:话题突破点 切入点:文档连贯度 出处:《清华大学》2014年博士论文 论文类型:学位论文
【摘要】:在当今信息化社会,以新闻、微博、专利、产品评论等为代表的时间相关文本序列为人们的工作生活提供了重要的信息来源。文本时序信息指时间相关文本序列中随时间变化的信息,此类信息刻画了时间相关文本序列在时间维度上动态变化的过程,对于文档的建模与分析具有重要作用。本文针对时间相关文本序列中各类文本时序信息的特点,围绕话题突破点检测、文档连贯度建模、文本相似度计算以及文档重要性量化等关键技术展开研究,取得了具有一定理论意义和实用价值的成果。本文的研究内容包括: 1.针对新闻话题动态演化的特点,提出了一种话题突破点检测算法。该方法通过对新闻报道序列中的主题强度波动进行建模,自动检测出一个新闻话题在其演化过程中发生重要转折的突破点,并基于突破点生成该话题的时间线摘要。实验结果表明,该方法可以有效检测出持续性新闻话题发展过程中的重要时间点并生成摘要,从而帮助用户快速地了解一个新闻话题的发展进程。 2.针对新闻故事线间持续交互的特点,提出了一种文档连贯度建模方法。该方法综合时间连续性、实体关联度和主题一致性三个维度对新闻报道间的连贯程度进行分析,,并进一步挖掘一个新闻话题下发生交互的故事线及其对应的新闻事件。实验结果表明,基于文档连贯度生成的新闻结构化摘要可以有效揭示出一个新闻话题下多条故事线间的交互关系与相互影响。 3.针对新闻热点词汇随时间变化的特点,提出了一种新闻事件相关的文本相似度计算方法。该方法从新闻报道序列中抽取热点新闻事件的相关词汇,通过分析词汇随时间动态变化的显著程度计算长度不均衡的文本(例如“微博-新闻”)间的相似度。基于千万规模微博数据的实验结果表明,该方法相比传统的文本相似度计算方法可以更有效地从微博数据中在线挖掘热点新闻事件的用户评论。 4.针对科学文献中技术发展趋势的特点,提出了一种文档重要性量化算法。该方法通过对专利文献中技术主题的活跃度建模,挖掘并筛选出一个领域下重要的技术主题及其发展趋势,并根据技术主题的活跃度趋势量化专利文档的创新性和影响力。实验结果表明,该方法可以有效发现一个领域下最具创新性和影响力的专利集合,从而帮助企业完成专利授权与投资等知识产权管理工作。
[Abstract]:In today's information society, with news, Weibo, patent, Product reviews provide an important source of information for people to work and live in time-dependent text sequences. Text temporal information refers to the time-dependent information in time-dependent text sequences. This kind of information depicts the dynamic changes of time-dependent text sequences in time dimension and plays an important role in document modeling and analysis. The research focuses on the key technologies of topic breakthrough detection, document coherence modeling, text similarity calculation and document importance quantification, and has achieved some theoretical and practical results. The research contents of this paper include:. 1. According to the characteristics of news topic dynamic evolution, a topic breakthrough detection algorithm is proposed. The breakthrough points of an important turning point in the evolution of a news topic are automatically detected, and the time-line summary of the topic is generated based on the breakthrough point. The experimental results show that, This method can effectively detect the important time points in the process of continuous news topic development and generate abstracts so as to help users quickly understand the development process of a news topic. 2. According to the characteristics of continuous interaction between news story lines, a document coherence modeling method is proposed, which integrates three dimensions: time continuity, entity correlation and thematic consistency, and analyzes the coherence between news reports. Furthermore, the interactive story lines and their corresponding news events under a news topic are excavated. The experimental results show that, The structured news abstracts based on document coherence can effectively reveal the interaction and interaction of multiple story lines under a news topic. 3. According to the characteristics of news hot words changing with time, a text similarity calculation method is proposed, which extracts the relevant words of hot news events from news report sequences. By analyzing the significance of the dynamic change of vocabulary over time, the similarity between texts with unbalanced length (such as Weibo-News) is calculated. Compared with the traditional text similarity calculation method, this method can effectively mine user comments of hot news events online from Weibo data. 4. According to the characteristics of technology development trend in scientific literature, a document importance quantization algorithm is proposed. Mining and screening of important technical topics and their development trends in a field, and quantifying the innovation and influence of patent documents according to the active trend of technical topics. The experimental results show that, This method can effectively find the most innovative and influential patent set in a field, thus helping enterprises to complete intellectual property management such as patent licensing and investment.
【学位授予单位】:清华大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:TP391.1
【共引文献】
相关期刊论文 前10条
1 焦健;瞿有利;;知网的话题更新与跟踪算法研究[J];北京交通大学学报;2009年05期
2 宋涛;施水才;房祥;吕学强;;基于改进的潜在语义分析的文本聚类[J];北京信息科技大学学报(自然科学版);2012年03期
3 仓玉;洪宇;姚建民;朱巧明;;基于时序话题模型的新事件检测[J];智能计算机与应用;2011年03期
4 苗蕊;刘鲁;刘志明;;基于隐马尔可夫模型的突发事件新闻报道的爆发性分析[J];系统工程;2010年08期
5 仲兆满;刘宗田;李存华;;事件本体模型及事件类排序[J];北京大学学报(自然科学版);2013年02期
6 陈艳红;宗乾进;袁勤俭;;国外微博研究热点、趋势及研究方法:基于信息计量学的视角[J];国际新闻界;2013年09期
7 翟东海;CUI Jing-jing;NIE Hong-yu;DU Jia;;New event detection based on sorted subtopic matching algorithm[J];Journal of Chongqing University(English Edition);2013年04期
8 牛洪林;孙海萍;;基于CSSCI(2000~2011)的我国体育学学科知识图谱研究[J];图书与情报;2014年01期
9 胡榜利;覃山羽;黄鑫;杨光业;陈斌冠;邓莉;蔡金华;;内镜逆行胰胆管造影术的文献计量学研究[J];重庆医学;2014年10期
10 王婵;王小捷;袁彩霞;;面向话题追踪的Dirichlet过程混合模型[J];北京邮电大学学报;2012年03期
相关会议论文 前8条
1 高继平;丁X;;基于德温特专利数据库两岸纳米专利的定量研究[A];经济发展方式转变与自主创新——第十二届中国科学技术协会年会(第四卷)[C];2010年
2 张辉;李国辉;陈俊;;一种基于新闻要素建模的新事件探测方法[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年
3 高继平;丁X;;基于德温特专利数据库两岸纳米专利的定量研究[A];第12届中国科协年会第31分会场海峡两岸区域合作与协同发展论坛论文集[C];2010年
4 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 李军;李涓子;;新闻专题内子话题划分[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 周春姐;孟小峰;文洁;;Flickr中的复合事件检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
7 邱均平;柴雯;;国际科学计量学研究的进展与趋势[A];第十届中国科技政策与管理学术年会论文集——分6:区域创新与绿色发展(Ⅰ)[C];2014年
8 杜刚;张晨;朱艳云;杜雪涛;孟德香;;移动伪基站定位和轨迹追踪技术研究[A];2014全国无线及移动通信学术大会论文集[C];2014年
相关博士学位论文 前10条
1 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
2 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
3 谢兴;社会网络中兴趣发现与信息组织的研究[D];复旦大学;2011年
4 庞杰;知识流动理论框架下的科学前沿与技术前沿研究[D];大连理工大学;2011年
5 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
6 洪宇;基于语义结构和时序特征的话题检测与跟踪技术研究[D];哈尔滨工业大学;2009年
7 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
8 张天成;实时数据流相关性分析与挖掘技术研究[D];东北大学;2008年
9 李小宁;药品监管的多元参与:科学计量学的视角[D];大连理工大学;2010年
10 赵旭剑;中文新闻话题动态演化及其关键技术研究[D];中国科学技术大学;2012年
相关硕士学位论文 前10条
1 印文涛;基于星型K部图的网络视频话题挖掘和可视化的研究[D];浙江大学;2011年
2 孙胜平;中文微博客热点话题检测与跟踪技术研究[D];北京交通大学;2011年
3 乔文妤;高校BBS平台信息有序化研究[D];南京大学;2011年
4 王甲坤;基于互联网的话题分类及敏感话题发现技术研究与实现[D];电子科技大学;2011年
5 张鹏飞;WEB挖掘技术在网络警情监控中的应用研究[D];华北电力大学;2011年
6 徐东亮;基于聚类分析的网络论坛舆情信息挖掘技术研究[D];哈尔滨工业大学;2010年
7 孔旗;基于并行机器学习的大规模专利分类[D];上海交通大学;2011年
8 王岩;基于共现链的微博情感分析技术的研究与实现[D];国防科学技术大学;2011年
9 刘丰;基于微博的突发事件检测和信息传播建模[D];哈尔滨工业大学;2011年
10 李璐e
本文编号:1600455
本文链接:https://www.wllwen.com/falvlunwen/zhishichanquanfa/1600455.html