基于混合推荐策略的学术会议推荐系统的研究与实现
发布时间:2020-07-22 19:12
【摘要】:学术会议作为一种公开的学术资源,能够清晰、完整、及时地传播科学成果,促进学术人员的交流,在教育与科研环境中占有重要的地位。然而在实际应用环境中,科研人员在处理学术会议信息时常常会面临获取途径单一、信息匹配度不高、资源不易管理等问题,使得用户无法高效、准确地获取感兴趣的会议举办信息。因此研究学术会议信息的处理技术,实现个性化的学术会议推荐,具有重要的实用意义。本文面向学术会议信息广泛传播及高效处理的实际需求,调研了市场及学术界对解决学术会议信息处理问题的现有研究,分析了当前研究中的不足,设计并实现了一种基于混合推荐策略的学术会议推荐系统,主要从四个方面进行研究:(1)学术会议的来源扩展。本文系统包括两个学术会议信息来源:用户邮件和公开会议网站。本文提出了一种基于关键词规则的筛选方法实现学术会议邮件的甄别;另一方面本文系统在定时任务中应用网页采集技术实现网站学术会议信息的实时获取。(2)学术会议信息中关键信息提取。面向邮件信息,本文使用基于TF-IDF和词向量的文本表示方法实现学术会议文本的领域识别,并通过设计文本模式集,利用正则表达式匹配学术会议邮件中的关键信息;面向网页信息,本文使用基于标签的网页文本解析提取来自网页的学术会议关键信息。(3)学术会议个性化推荐。本文提出了一种学术会议的混合推荐策略实现学术会议推荐,该策略利用基于内容的推荐算法校准和补充基于用户的协同过滤算法,并且将热门会议作为生成推荐结果的辅助信息,一定程度上缓解了协同过滤技术的冷启动问题。(4)学术会议资源管理。本文系统利用接口调用的方式集成第三方存储服务,实现学术会议资源的系统化管理。最后本文根据真实的会议数据集,设计实验对学术会议邮件筛选、学术会议文本领域分类及学术会议推荐三个核心方案进行性能评估,验证了方案的可用性,并且模拟实际应用场景设计功能测试,展示了本文系统的功能完整性。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.3;N27
【图文】:
图 3-4 学术会议邮件文本示例理固定模式的文本内容时,通过正则表示式能够有效地检索文本中符则表达式能够利用单个字符串来描述、匹配符合特定句法规则的字符理应用中,会通过正则表达式来匹配某种特定模式的文本,因此本文集,使用基于正则表达式的匹配方法对文本中的一些会议有效信息进面详细介绍四类会议有效信息的文本模式方案。术会议名称提取方法会议名称是学术会议的唯一标识符,因此能否在文本中获取准确的学要,学术会议名称又包括学术会议全称和学术会议简称,由于会议全分会议都会设置会议简称甚至以简称广泛传播。根据对本地语料库的的文本进行分析,接着尝试有效的文本模式,本文发现会议简称在文
图 6-2 不同学习率的神经网络训练情况选取参数 、 的实验中,根据第一部分的实验,固定学习率为 0.2,迭代次, 参数 的取值在[100,1000]间以 100 为步进,参数 选取 0.5、0.6、0.7、0法结束迭代时 40 个组合的训练情况和分类效果,实验结果如图 6-3 所示,根果可以观察到,如果选取的 值偏大的话,分类效果不如 T 的取值接近中值,是将关键词的阈值标准设置过高会导致在候选词的二次筛选中过滤掉部分带息的关键词, =0.5 和 =0.6 时分类表现相近且较优;另一方面,选取的 值小加候选词的选取范围能够有效地提升分类准确率,主要原因是随着关键词特征加能够更加完整地描述文本的模式, 值大于 500 时,增加候选词的范围对分影响变得很小,主要原因是词频靠后的词不能代表文本的特性,在准确率相近,设置较小的关键词规则数量能够降低计算复杂度,增加算法运行的速度,考邮件筛选是在邮件接收部分完成的,对响应速度有比较高的要求,综合分类准法复杂度的考虑,可选取 =500, =0.6。
后通过实验评估基于关键词规则的学术算法在真实数据集上的表现,通过分的实验,最终实验的相关设置包括:在选取关键词候选词时首先选择词词,其中 = 500 ,通过式 (3-1) 筛选出高词频关键词中的非常用词,词的阈值标准 =0.6,通过普通邮件的冗余复制将 1500 封普通邮件扩展为则赋值的神经网络训练学习率为 0.2,迭代次数为 1000,实验使用 5 折交叉验结果如表 6-2 所示,根据实验结果,基于关键词规则的学术会议邮件筛学术会议邮件的真实场景中准确率始终保持在 99.50%以上,最高可达到 9存在被误分类的普通邮件,证明学术会议邮件具有区别度很高的关键词特成立的,使用此方法能够很好地区分学术会议邮件和普通邮件,应用在学统中能够解决邮件筛选的问题,具有实用性。表 6-2 学术会议筛选方法分类效果
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.3;N27
【图文】:
图 3-4 学术会议邮件文本示例理固定模式的文本内容时,通过正则表示式能够有效地检索文本中符则表达式能够利用单个字符串来描述、匹配符合特定句法规则的字符理应用中,会通过正则表达式来匹配某种特定模式的文本,因此本文集,使用基于正则表达式的匹配方法对文本中的一些会议有效信息进面详细介绍四类会议有效信息的文本模式方案。术会议名称提取方法会议名称是学术会议的唯一标识符,因此能否在文本中获取准确的学要,学术会议名称又包括学术会议全称和学术会议简称,由于会议全分会议都会设置会议简称甚至以简称广泛传播。根据对本地语料库的的文本进行分析,接着尝试有效的文本模式,本文发现会议简称在文
图 6-2 不同学习率的神经网络训练情况选取参数 、 的实验中,根据第一部分的实验,固定学习率为 0.2,迭代次, 参数 的取值在[100,1000]间以 100 为步进,参数 选取 0.5、0.6、0.7、0法结束迭代时 40 个组合的训练情况和分类效果,实验结果如图 6-3 所示,根果可以观察到,如果选取的 值偏大的话,分类效果不如 T 的取值接近中值,是将关键词的阈值标准设置过高会导致在候选词的二次筛选中过滤掉部分带息的关键词, =0.5 和 =0.6 时分类表现相近且较优;另一方面,选取的 值小加候选词的选取范围能够有效地提升分类准确率,主要原因是随着关键词特征加能够更加完整地描述文本的模式, 值大于 500 时,增加候选词的范围对分影响变得很小,主要原因是词频靠后的词不能代表文本的特性,在准确率相近,设置较小的关键词规则数量能够降低计算复杂度,增加算法运行的速度,考邮件筛选是在邮件接收部分完成的,对响应速度有比较高的要求,综合分类准法复杂度的考虑,可选取 =500, =0.6。
后通过实验评估基于关键词规则的学术算法在真实数据集上的表现,通过分的实验,最终实验的相关设置包括:在选取关键词候选词时首先选择词词,其中 = 500 ,通过式 (3-1) 筛选出高词频关键词中的非常用词,词的阈值标准 =0.6,通过普通邮件的冗余复制将 1500 封普通邮件扩展为则赋值的神经网络训练学习率为 0.2,迭代次数为 1000,实验使用 5 折交叉验结果如表 6-2 所示,根据实验结果,基于关键词规则的学术会议邮件筛学术会议邮件的真实场景中准确率始终保持在 99.50%以上,最高可达到 9存在被误分类的普通邮件,证明学术会议邮件具有区别度很高的关键词特成立的,使用此方法能够很好地区分学术会议邮件和普通邮件,应用在学统中能够解决邮件筛选的问题,具有实用性。表 6-2 学术会议筛选方法分类效果
【相似文献】
相关期刊论文 前10条
1 朱宏康;;2020年材料领域国际学术会议信息[J];中国材料进展;2019年10期
2 侯和涛;;第5届钢结构国际学术会议[J];国际学术动态;2010年02期
3 王长喜;;第4届创新与管理国际学术会议[J];国际学术动态;2008年04期
4 焦建利;;闲话学术会议及其样式[J];中国信息技术教育;2014年21期
5 ;第19届中国南方国际心血管病学术会议(SCC2017)[J];心血管病防治知识(科普版);2017年04期
6 郑颖t
本文编号:2766235
本文链接:https://www.wllwen.com/projectlw/zzkxlw/2766235.html