当前位置:主页 > 科技论文 > 信息工程论文 >

基于主题模型的专家检索及应用挖掘

发布时间:2016-09-30 18:18

  本文关键词:面向专业领域的网络信息采集及主题检测技术研究与应用,由笔耕文化传播整理发布。


《云南大学》 2010年

基于主题模型的专家检索及应用挖掘

王美姣  

【摘要】: 入21世纪,人类社会正在由信息社会迈向知识社会,掌握知识、勇于创新的人才成为企业和组织中最有价值的资源。无论是科学研究机构,还是社会生产部门(如企业、工厂),都需要那些拥有丰富专业知识、技能与经验的领域专家来组织团队,指导研发,攻关技术,以此来提高工作或生产效率,而如何通过有效的手段发现这些专家就日渐成为一个重要的科学问题。 作为一项检索工作,专家检索近年来受到了很多的关注,成为信息处理领域的研究热点。本文先回顾了专家检索的研究背景、现状,阐述了其研究进展,并就其研究方法如专家建模、链接分析、查询扩展、专家证据识别、隐含主题分析等作了分析和总结,还统计分析了各类测试集,展望了该领域未来的研究方向。 针对特定的主题查询已提出了很多排序候选专家的策略。其中最有效的方法是基于支持文档的专家建模,但是这种方法建模查询和候选专家关系时缺少捕获查询和候选专家的隐含语义联系。本文提出潜在主题模型和支持文档相结合的方法。该方法建模查询和支持文档为单词-主题-文档关系,而不是用语言模型建模单词-文档关系,另外,支持文档的先验知识也被考虑来排序专家。在元数据语料库上的实验结果显示潜在主题模型能有效的捕获查询和候选专家的语义关系,因此提高了专家检索的性能。文中给出了评审专家自动分配策略和多类型指标条件下的专家排名,实现了评审专家自动化推荐,并公平可靠地分配候选专家。 潜在主题模型的应用研究越来越多,本文所述在生物信息学领域的应用就是一个很好的实例。生物信息学已经发展了大约30年的时间,特别是在过去10年里,该领域的发展一日千里,也出现了许多研究工作。这一领域的无论是一个新手,还是著名学者,都希望能够一睹这一领域的研究现状,并对该领域获得一个直观和量化的了解。本文将利用潜在主题模型,挖掘出生物信息学领域的文献来发现重要的研究课题,量化这些主题的演变来显示这一领域的发展趋势。

【关键词】:
【学位授予单位】:云南大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.3
【目录】:

  • 摘要3-4
  • Abstract4-8
  • 第一章 绪论8-11
  • 1.1 研究背景与意义8-9
  • 1.2 研究现状9-10
  • 1.3 本文的主要工作和内容结构10-11
  • 第二章 专家检索研究进展11-21
  • 2.1 引言11
  • 2.2 专家检索模型研究11-16
  • 2.2.1 专家建模方法12-13
  • 2.2.2 链接分析方法13-14
  • 2.2.3 查询扩展方法14-15
  • 2.2.4 专家证据识别15-16
  • 2.3 专家检索测试集16-19
  • 2.4 专家检索未来方向19-20
  • 2.5 小结20-21
  • 第三章 基于主题模型的专家检索21-37
  • 3.1 引言21-22
  • 3.2 专家检索的背景技术22-27
  • 3.2.1 TF-IDF22-24
  • 3.2.2 潜在主题模型24-27
  • 3.2.2.1 先验概率和后验概率24
  • 3.2.2.2 马尔可夫链24-25
  • 3.2.2.3 潜在的狄利克雷分布(LDA)25-26
  • 3.2.2.4 基于Gibbs抽样的LDA26-27
  • 3.3 专家检索的扩展模型27-34
  • 3.3.1 基础模型27-28
  • 3.3.2 候选专家和文档关系建模28
  • 3.3.3 查询和文档关系建模28-29
  • 3.3.4 发掘文档的先验知识29-30
  • 3.3.5 实验和讨论30-34
  • 3.3.5.1 实验设置30-31
  • 3.3.5.2 评审专家检索的LDA模型31-33
  • 3.3.5.3 评审支持文档先验知识的发掘33-34
  • 3.4 评审专家推荐应用34-36
  • 3.5 小结36-37
  • 第四章 主题模型的研究趋势挖掘应用37-46
  • 4.1 引言37
  • 4.2 在文档集中检测主题和发展趋势的模型37-39
  • 4.3 评审生物信息学的研究趋势39-45
  • 4.3.1 更加突出的主题40-41
  • 4.3.2 已经下降的主题41
  • 4.3.3 高峰和波谷主题41-43
  • 4.3.4 生物信息学中的交叉学科技术43-45
  • 4.4 小结45-46
  • 第五章 结语46-47
  • 参考文献47-52
  • 攻读硕士期间发表论文与参与项目52-53
  • 致谢53
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【参考文献】

    中国期刊全文数据库 前3条

    1 石晶;胡明;石鑫;戴国忠;;基于LDA模型的文本分割[J];计算机学报;2008年10期

    2 孙海霞;成颖;;潜在语义标引(LSI)研究综述[J];现代图书情报技术;2007年09期

    3 陆伟;赵浩镇;;基于文档权重归并法的企业专家检索[J];现代图书情报技术;2008年07期

    【共引文献】

    中国期刊全文数据库 前10条

    1 吴永辉;王晓龙;丁宇新;徐军;郭鸿志;;基于主题的自适应、在线网络热点发现方法及新闻推荐系统[J];电子学报;2010年11期

    2 段灵修;林俊;黄达臻;黄志华;;中文专利文本特征提取方法研究[J];福建电脑;2011年12期

    3 胡艳丽;白亮;张维明;;网络舆情中一种基于OLDA的在线话题演化方法[J];国防科技大学学报;2012年01期

    4 王小芳;王瑞芳;张树功;;基于最优化控制模型的文本主题域划分[J];吉林大学学报(理学版);2009年04期

    5 崔凯;周斌;贾焰;梁政;;一种基于LDA的在线主题演化挖掘模型[J];计算机科学;2010年11期

    6 石晶;李万龙;;基于LDA模型的主题词抽取方法[J];计算机工程;2010年19期

    7 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期

    8 刘培奇;孙捷焓;;基于LDA主题模型的标签传递算法[J];计算机应用;2012年02期

    9 武浩;王美姣;冯佳明;裴以建;;专家检索研究进展[J];计算机应用研究;2010年10期

    10 杨柳;张文生;;专家搜索中关系证据的重要性研究[J];计算机应用研究;2010年11期

    中国重要会议论文全文数据库 前3条

    1 毕文静;沈华伟;刘悦;许洪波;程学旗;;基于企业环境的专家检索研究[A];第五届全国信息检索学术会议论文集[C];2009年

    2 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年

    3 丁兆云;王晖;;一种词位置相关的LDA模型[A];2013第一届中国指挥控制大会论文集[C];2013年

    中国博士学位论文全文数据库 前10条

    1 丁轶群;基于概率生成模型的文本主题建模及其应用[D];浙江大学;2010年

    2 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年

    3 王小芳;文本主题域划分与无监督特征提取[D];吉林大学;2009年

    4 林琛;WEB环境下的社会网络挖掘研究[D];复旦大学;2009年

    5 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年

    6 张冬梅;文本情感分类及观点摘要关键问题研究[D];山东大学;2012年

    7 龚书;抽取式多文档文摘的文本表示研究[D];北京交通大学;2013年

    8 胡德鹏;基于农业本体问句分析的问答系统研究与架构设计[D];中国农业科学院;2013年

    9 胡艳丽;在线社会网络中的舆论演化关键技术研究[D];国防科学技术大学;2011年

    10 朱沿旭;面向开源社区的Web数据抽取与挖掘关键技术研究[D];国防科学技术大学;2011年

    中国硕士学位论文全文数据库 前10条

    1 张庐颖;基于粗糙集的K-means研究[D];北京交通大学;2011年

    2 吴高;基于数据挖掘的商品资讯投送平台研究与实现[D];电子科技大学;2011年

    3 张博;高校网络突发事件应急处置系统的研究[D];北京交通大学;2011年

    4 毛玉才;基于语义网技术的语义检索系统模型研究[D];黑龙江大学;2008年

    5 冯颖;网络舆情敏感话题发现平台的研究[D];北京交通大学;2009年

    6 陈浩然;基于日志分析的信息检索技术研究与实现[D];电子科技大学;2009年

    7 马娟;文本自动标引方法研究与实现[D];西南交通大学;2009年

    8 王雪芬;基于社会网络的科技咨询专家库构建及其可视化研究[D];南京理工大学;2010年

    9 蒋莹莹;基于对话的主题提取研究[D];华中科技大学;2009年

    10 楚彦凌;基于数据聚类的语言模型研究[D];北京邮电大学;2010年

    【二级参考文献】

    中国期刊全文数据库 前10条

    1 赵顺,迟呈英;基于LSI和Rough集的文本分类研究[J];鞍山科技大学学报;2005年05期

    2 王慧莉;隋丹妮;;基于潜在语义分析的长时工作记忆在语篇理解中的作用[J];北京航空航天大学学报(社会科学版);2005年04期

    3 王金凤;一种基于特征聚合理论和LSI的文本分类新方法[J];北京理工大学学报(社会科学版);2004年05期

    4 林鸿飞,高仁璟;基于潜在语义索引的文本摘要方法[J];大连理工大学学报;2001年06期

    5 林鸿飞;丁洪文;杨志豪;赵晶;;基于概念和统计的问答系统实现机制[J];大连理工大学学报;2006年02期

    6 杨梁彬;文本检索的潜在语义索引法初探[J];大学图书馆学报;2003年06期

    7 曾雪强,王明文,陈素芬;一种基于潜在语义结构的文本分类模型[J];华南理工大学学报(自然科学版);2004年S1期

    8 袁磊,曹奎,冯玉才,吴永英;一种基于LSI的图像语义检索技术[J];华中科技大学学报(自然科学版);2002年02期

    9 石晶;戴国忠;;基于PLSA模型的文本分割[J];计算机研究与发展;2007年02期

    10 林鸿飞,李业丽,姚天顺;中英文双语交叉过滤的逻辑模型[J];计算机工程与应用;2000年08期

    【相似文献】

    中国期刊全文数据库 前10条

    1 鹏程;利用VC++改变文档窗口的实现[J];电脑编程技巧与维护;2005年02期

    2 王海星;Word XP功能键集锦[J];电子与电脑;2003年02期

    3 little fox;;快速编辑长文档的不同部分[J];电脑迷;2008年18期

    4 小白;;文章太长 我有定位神针[J];电脑迷;2009年15期

    5 曹建;Gallery Effects连载之二 Gallery Effects的命令和工具[J];软件世界;1996年03期

    6 王水成;为Word文档设置密码[J];家庭电子;2003年07期

    7 雨阳;网站高手必备 网页设计新武器──GoLive[J];电子计算机与外部设备;2000年07期

    8 李波;定位图片2分钟提交[J];电脑应用文萃;2004年10期

    9 申汉军;熊耀华;;使用Excel制作可显示和隐藏答案的练习文档[J];中小学电教;2008年09期

    10 张海,潘光斌;多文档界面在雷达仿真软件中的应用[J];计算机应用研究;1997年03期

    中国重要会议论文全文数据库 前2条

    1 张春卯;邢岳林;;基于Flex的RIA技术在网络教育中的应用[A];中国电子学会第十七届信息论学术年会论文集[C];2010年

    2 范晖;曹俊武;;天气雷达数据浏览器的设计[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年

    中国重要报纸全文数据库 前10条

    1 ;[N];电脑报;2001年

    2 广州市 钟征;[N];电子报;2006年

    3 W-W 阿宝 陈会安 阿@;[N];电脑报;2003年

    4 ;[N];电脑报;2001年

    5 飞子 徐颖 沙沙 姚楠;[N];电脑报;2003年

    6 陈会安;[N];中国电脑教育报;2003年

    7 浙江 径山茶;[N];中国电脑教育报;2005年

    8 纵横一笑;[N];中国电脑教育报;2003年

    9 若木;[N];中国国门时报;2006年

    10 陈智罡;[N];中国电脑教育报;2003年

    中国硕士学位论文全文数据库 前2条

    1 章伟国;基于GIS的配电生产管理信息系统[D];电子科技大学;2011年

    2 郭东波;基于伪文档的潜在语义索引优化技术的研究[D];沈阳航空工业学院;2010年

    中国知网广告投放

    相关机构

    >电子科技大学

    >沈阳航空工业学院

    相关作者

    >郭东波 >章伟国

    基于主题模型的专家检索及应用挖掘

    《中国学术期刊(光盘版)》电子杂志社有限公司
    同方知网数字出版技术股份有限公司
    地址:北京清华大学 84-48信箱 大众知识服务
    京ICP证040441号
    互联网出版许可证 新出网证(京)字008号
    出版物经营许可证 新出发京批字第直0595号

    订购热线:400-819-9993 010-62982499
    服务热线:010-62985026 010-62791813
    在线咨询:
    传真:010-62780361
    京公网安备11010802020475号



      本文关键词:面向专业领域的网络信息采集及主题检测技术研究与应用,由笔耕文化传播整理发布。



    本文编号:127482

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/127482.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户6bde5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com