当前位置:主页 > 科技论文 > 软件论文 >

基于hLDA的图书内部主题层次组织研究

发布时间:2017-07-02 22:03

  本文关键词:基于hLDA的图书内部主题层次组织研究


  更多相关文章: 电子图书 主题模型 hLDA 上下文 多主题文档 层次


【摘要】:随着数字出版技术的不断提高和进步,电子图书资源呈现爆炸式的增长。电子图书以它独有的数字化、方便性为人们所接受,并逐渐改变人们传统的阅读习惯。然而,电子图书虽然被数字化了,但由于其长文档性,人们仍然面临着内容太多而时间、精力不够的问题,并没有极大地发挥数字图书可分解、可快速定位的优点。因此,研究如何快速准确地对图书信息资源进行良好的组织和描述一直是研究人员的目标和追求。图书主题分析是文本分析的一个应用分支,它通过抽取图书的主题信息,识别主题之间的语义联系,并将这些主题信息进行有机组织,勾勒出文档的主题结构树,来帮助用户更高效的搜索、定位和分析图书内容,使得用户获取图书知识的过程变得更简洁、方便、高效。现阶段由于文本分析大都从目次、段落甚至全文的角度,对于主题之间的关系、层次信息以及上下文环境少有考虑,并不能为用户提供满意的分析结果。此外,当前的电子图书主题多样、结构复杂,导致现有的文本分析普遍存在低效性和盲目性的问题。因此,如何有效地对图书进行组织分析成为迫切需要解决的问题。本文主要包括以下几部分工作:首先,本文提出了一种基于主题的图书知识组织分析方法,在深入分析现有文档组织理论的基础上,结合图书特点,利用层次主题模型及上下文信息构建图书内部主题层次组织模型,挖掘图书内部潜在的主题信息。其次,在模型建立的基础上,利用计算机技术,根据需求分析设计并实现了图书内部主题分析原型系统。然后,通过实验证明了图书内部主题层次组织系统的可行性和实用性。并与图书目录系统进行对比,对该系统的效果进行评价。实验结果表明,该系统在图书主题分析上具有很高的准确率。最后,本文对研究工作中存在的问题进行了总结,并对后续研究方向进行了展望。
【关键词】:电子图书 主题模型 hLDA 上下文 多主题文档 层次
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:G254
【目录】:
  • 摘要6-7
  • Abstract7-10
  • 1 绪论10-16
  • 1.1 研究背景及意义10-12
  • 1.2 国内外研究综述12-14
  • 1.2.1 国内外关于文档组织研究的现状12-13
  • 1.2.2 存在的问题13-14
  • 1.3 研究内容与创新点14
  • 1.4 论文的结构安排14-16
  • 2 相关理论基础16-25
  • 2.1 文档组织结构理论16-20
  • 2.1.1 语篇性理论16-17
  • 2.1.2 文本拓扑理论17-18
  • 2.1.3 修辞结构理论18-19
  • 2.1.4 篇章系统性理论19-20
  • 2.2 hLDA层次主题模型20-23
  • 2.2.1 中国餐馆过程(Chinese Restaurant Process)20-21
  • 2.2.2 嵌套的中国餐馆过程21-23
  • 2.2.3 概率后验推理23
  • 2.3 本章小结23-25
  • 3 图书内部主题层次组织理论模型研究25-33
  • 3.1 建模思想25-26
  • 3.2 图书内部主题层次组织模型构建26-31
  • 3.2.1 文档预处理26-28
  • 3.2.2 层次主题挖掘28-29
  • 3.2.3 依据上下文信息进行段落归并29-31
  • 3.3 本章小结31-33
  • 4 图书内部主题层次组织原型系统设计与实现33-44
  • 4.1 系统需求分析33-34
  • 4.2 系统开发环境34
  • 4.3 系统体系架构34-36
  • 4.4 系统功能模块设计及实现36-41
  • 4.4.1 文本预处理模块36-37
  • 4.4.2 层次主题挖掘模块37-39
  • 4.4.3 上下文段落归并模块39-41
  • 4.5 系统展示41-43
  • 4.6 本章小结43-44
  • 5 实验与分析44-54
  • 5.1 实验环境44
  • 5.2 实验语料44
  • 5.3 评估标准44-46
  • 5.3.1 查全率与查准率44-45
  • 5.3.2 用户满意度45-46
  • 5.4 实验方案46
  • 5.5 实验过程46-49
  • 5.5.1 预处理46-48
  • 5.5.2 参数设置48-49
  • 5.6 实验结果及分析49-53
  • 5.7 本章小结53-54
  • 6 结论54-56
  • 6.1 总结54-55
  • 6.2 展望55-56
  • 参考文献56-60
  • 攻读硕士学位期间发表学术论文及参与科研项目情况60-61
  • 致谢61

【相似文献】

中国期刊全文数据库 前10条

1 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期

2 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期

3 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期

4 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期

5 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期

6 关慧芬;师军;;基于本体的主题爬虫技术研究[J];计算机仿真;2009年10期

7 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期

8 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期

9 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期

10 朱梦麟;李光耀;周毅敏;;基于树比较的Web页面主题信息抽取[J];微型机与应用;2011年19期

中国重要会议论文全文数据库 前6条

1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年

2 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

3 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

4 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

6 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

中国博士学位论文全文数据库 前4条

1 杨肖;基于主题的互联网信息抓取研究[D];浙江大学;2014年

2 赵一鸣;基于多维尺度分析的潜在主题可视化研究[D];华中师范大学;2013年

3 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年

4 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年

中国硕士学位论文全文数据库 前10条

1 解琰;主题优化过滤方法研究与应用[D];大连海事大学;2015年

2 杨春艳;基于语义和引用加权的文献主题提取研究[D];浙江大学;2015年

3 卢洋;基于主题模型的混合推荐算法研究[D];电子科技大学;2014年

4 黄志;基于维基歧义页的搜索结果聚类方法研究[D];北京理工大学;2015年

5 王亮;基于主题模型的文本挖掘的研究[D];大连理工大学;2015年

6 任昱凤;基于Hadoop的分布式主题爬虫及其实现[D];陕西师范大学;2015年

7 韩琳;基于贝叶斯主题爬虫的研究与实现[D];北京工业大学;2015年

8 黎楠;面向专利的主题挖掘技术研究及应用[D];北京工业大学;2015年

9 刘学江;超大规模社交网络中基于结构与主题的社团挖掘[D];电子科技大学;2015年

10 黄文强;安卓技术信息的主题爬虫技术研究与实现[D];东南大学;2015年


  本文关键词:基于hLDA的图书内部主题层次组织研究


  更多相关文章: 电子图书 主题模型 hLDA 上下文 多主题文档 层次




本文编号:511409

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/511409.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户18fc9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com