面向热点新闻话题的文本处理技术研究
本文关键词:面向热点新闻话题的文本处理技术研究,由笔耕文化传播整理发布。
【摘要】:网络新闻文本的大量涌现迫切需要借助计算机进行自动处理。面向热点新闻的话题处理任务主要包括热点话题的识别、跟踪和演化分析,旨在实现自动发现热点话题、汇总相关报道、找到话题变化规律。目前,文本分类仍然是制约话题处理各项任务的关键技术,本文以其为研究重点,尝试基于不同文本表示模型进行文本分类,通过提高文本分类的性能,最终达到提升热点话题处理任务性能的目的。本文的研究内容主要包含以下四个部分:(1)文本分类问题的划分和描述方法在全面分析现有的文本分类方法的基础上,针对如何划分文本分类模型进行了尝试,提出了一种按照三个因素来描述文本分类方法的三维结构。进一步扩展后,提出利用6元组架构去表达任意一种文本分类方法。特别地,该架构能综合反映文本分类的实现过程及呈现结果。尤其是对基于话题模型的文本分类方法而言,该架构能表现出其它分类模式不能全面表达的内容。(2)基于支持向量机-决策树的多策略融合文本分类方法研究了文本分类中支持向量机和决策树的结合技术,综合考量影响决策树构建的4个因素(决策树的构造方式、样本规模、结构形式和类间距离),提出了一种融合多策略的SVM决策树构建方法,这样形成的分类器结构更加清晰、层次更少、更加适合分类需求,分类的时效性和准确性得以全面提升。(3)面向动态话题的热点话题演化方法话题周期中,内容的焦点和子话题的数目都是变动的,话题文本的动态性是无法回避的问题。鉴于此,对如何动态获取话题数目进行了针对性研究。提出了基于ILDA模型进行参数获取的方法,使得输入文本集可动态更新,更符合话题演化的需求。在此基础上构建的话题演化分析过程无须事先指定话题数,自动执行能力强,能达到设定的演化需求,对中英文语料的实验显示出良好的可移植性,具备实际应用能力。(4)动静结合的自适应话题模型分类能力提升方法分析了“大话题会变得更大”这一问题的产生原因和解决方法,指出文本特征在话题演化过程中呈现出“动中有静”的现象,提出了一种融合了动态和静态特征的自适应话题模型,加入的静态权重因子提升了话题的稳态特征的权重,而源自重采样过程的动态权重因子则可以提升临近周期内关键特征的权重,这一定程度上削弱了话题倾斜问题,对话题细分类方法给出了一种有益的尝试方案。同时,为了综合考察实际应用效果,本文构建了一个热点话题处理架构,由数据采集、知识库建设、热点话题识别、热点话题跟踪和热点话题演化等5部分构成,达到了设定的运行能力,并已在某预研项目中得到应用。
【关键词】:热点 话题识别与跟踪 演化分析 文本分类 话题模型
【学位授予单位】:北京理工大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要5-7
- Abstract7-15
- 第1章 绪论15-30
- 1.1 研究的问题与意义15-20
- 1.1.1 相关概念17-18
- 1.1.2 任务定义18-20
- 1.2 国内外研究现状20-27
- 1.2.1 共性技术及研究现状20-25
- 1.2.2 目前存在的问题25-27
- 1.3 本文的研究内容27-28
- 1.4 论文的结构安排28-30
- 第2章 面向文本分类问题的划分和描述体系30-41
- 2.1 当前的文本分类划分体系31-33
- 2.2 对文本分类方法的三维划分体系33-34
- 2.3 扩展的文本分类模型描述架构34-37
- 2.4 文本分类问题的进一步讨论37-40
- 2.5 本章小结40-41
- 第3章 基于向量空间模型的层次化文本分类技术41-58
- 3.1 基于支持向量机和决策树的文本分类方法41-45
- 3.1.1 基于支持向量机的文本分类方法42-43
- 3.1.2 基于决策树的文本分类方法43-45
- 3.2 SVM决策树的构建策略45-47
- 3.2.1 决策树的构造方式45-46
- 3.2.2 样本集规模的影响46
- 3.2.3 决策树的结构形式46-47
- 3.2.4 类间相似度的影响47
- 3.3 多策略融合的SVM决策树构建算法47-51
- 3.4 基于SVM决策树的文本分类方法51-53
- 3.5 文本分类实验及分析53-57
- 3.6 本章小结57-58
- 第4章 面向动态文本集的话题参数获取方法58-73
- 4.1 LDA和ILDA模型介绍62-65
- 4.1.1 LDA模型简介62-63
- 4.1.2 ILDA模型简介63-65
- 4.2 动态话题数下的话题演化分析65-68
- 4.2.1 基于Gibbs采样的ILDA话题数获取算法65-67
- 4.2.2 话题关联度计算、阈值确定和文本集处理方法67-68
- 4.3 基于ILDA模型的话题数目和话题演化实验68-72
- 4.3.1 NIPS语料上话题数的确定实验68-69
- 4.3.2 关于“神九”报道的话题演化分析69-72
- 4.4 本章小结72-73
- 第5章 融合动静特征的自适应话题模型73-85
- 5.1 话题倾斜问题的现有处理方法74-75
- 5.2 动静结合的自适应话题模型75-78
- 5.3 基于重采样的模型参数获取算法78-79
- 5.4 基于自适应话题模型的文本分类和话题演化实验79-84
- 5.4.1 NIPS语料上的话题参数对比实验80-81
- 5.4.2 汉语文本集上的话题演化分析实验81-84
- 5.5 本章小结84-85
- 第6章 热点话题处理架构85-97
- 6.1 热点话题处理架构85-86
- 6.2 数据采集模块86-88
- 6.3 热点知识库构建模块88-90
- 6.4 热点话题识别模块90-93
- 6.5 热点话题跟踪模块93-94
- 6.6 热点话题演化模块94-95
- 6.7 本章小结95-97
- 总结与展望97-99
- 参考文献99-110
- 攻读学位期间发表论文与研究成果清单110-111
- 致谢111-112
- 作者简介112
【相似文献】
中国期刊全文数据库 前10条
1 刘建毅;王菁华;王枞;;文本网络表示研究与应用[J];中国科技论文在线;2007年10期
2 吴思竹;张智雄;钱庆;;基于语言网络的文本表示模型研究[J];情报科学;2013年12期
3 于屏方;杜家利;;文本排歧语义图式的自动获取与选择[J];计算机工程与应用;2007年31期
4 陈燕敏;楼喜中;;一种基于集聚确定文本意向结构的方法[J];微计算机信息;2010年18期
5 袁鼎荣;钟宁;张师超;;文本信息处理研究述评[J];计算机科学;2011年02期
6 林鸿飞,战学刚,姚天顺;文本层次分析与文本浏览[J];中文信息学报;1999年04期
7 姚天f ;“自然语言多语种文本生成系统”在上海交通大学研制成功[J];中文信息学报;1999年04期
8 石晶;;文本分割综述[J];计算机工程与应用;2006年35期
9 刘红红;安海忠;高湘昀;;基于文本复杂网络的内容结构特征分析[J];现代图书情报技术;2011年01期
10 张晓龙,姚天顺;基于文本句法的文本生成模型[J];武汉钢铁学院学报;1995年01期
中国重要会议论文全文数据库 前6条
1 杨艳;李巍;玄萍;;数字图书馆中基于Ontology的文本模型[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
2 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本结构的自动分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 刘玲;周经野;罗慧慧;;基于XML的文本规划方法[A];2005年全国理论计算机科学学术年会论文集[C];2005年
5 苏贵洋 ;李建华 ;马颖华;;XML统一文本自动处理描述接口[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 揭春雨;刘晓月;冼景炬;卫真道;;从网络获取香港法律双语语料库[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 方莹;面向热点新闻话题的文本处理技术研究[D];北京理工大学;2015年
2 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
3 赖彦;新闻话语对话性的文本分析与阐释[D];南京师范大学;2011年
4 钟茂生;基于内容相关度计算的文本结构分析方法研究[D];上海交通大学;2010年
5 廖一星;文本分类及其特征降维研究[D];浙江大学;2012年
6 单建芳;面向事件的文本表示研究[D];上海大学;2012年
7 孙巧榆;复杂背景图像的文本信息提取研究[D];华东师范大学;2012年
8 眭新光;文本信息隐藏及分析技术研究[D];解放军信息工程大学;2007年
9 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
10 叶娜;文本分割关键技术及其在多文档摘要中的应用研究[D];东北大学;2008年
中国硕士学位论文全文数据库 前10条
1 徐亮;基于倾向性分析的文本信息过滤技术研究[D];哈尔滨工业大学;2007年
2 柴春梅;互联网短文本信息分类关键技术研究[D];上海交通大学;2009年
3 张文明;文本案例知识库构建的关键技术研究[D];西北大学;2010年
4 蒋子海;基于元信息的文本分类与优化技术研究与实现[D];国防科学技术大学;2010年
5 郑勤勤;面向专业领域的文本矩阵模型[D];华南理工大学;2012年
6 付裕;文本分类方案选择方法及原型系统开发[D];大连理工大学;2006年
7 梁旭;评论文本的对立观点摘要的研究[D];北京交通大学;2013年
8 吴锦霞;面向英语学习的文本难度判定[D];哈尔滨工业大学;2007年
9 杨林波;快速文本分类研究[D];江南大学;2008年
10 赵耀;基于关联规则的文本分类研究[D];河北大学;2010年
本文关键词:面向热点新闻话题的文本处理技术研究,由笔耕文化传播整理发布。
,本文编号:314782
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/314782.html