Web旅游信息集成中的信息融合研究
发布时间:2022-12-25 16:31
自从数字化信息时代的到来,我国传统旅游业的发展紧跟时代的步伐,各大旅游网站在Web上如雨后春笋般不断涌现。然而,正是如此多的网站,导致众说纷纭,极易出现数据不一致现象;并且,用户的需求多种多样,而一个网站的数据量往往有限,致使需求得不到满足。因此,为了满足广大用户需求,向用户提供一个可以全面展现旅游景点信息的查询平台,并且可以应用于现有旅游网站或者旅游信息终端机等领域,本文对Web上已有的旅游信息进行集成,旨在构建更全面的旅游信息集成系统。 首先,本文利用爬虫工具从百度百科、中国旅游网、欣欣网、驴妈妈网、驴评网抓取各种文本信息,并完成去除文本中的标签、网络格式符等数据清洗工作,以及分词、词性标注、字段抽取等预处理工作,构建数据集;其次,对从百度百科中采集的文本进行分类处理,区分出景点及其相关文本;再次,识别景点数据间的不一致现象,应用实体识别技术解决现存的同名不同景、、同景不同名问题,使得景点数据更加完备与统一;最后,由于存在多个文本描述同一景点,并且这些文本内容又时有交叠,为了在用户眼前呈现一个完整、可读的文本,本文在文本相似性度量的基础上,删除相似文本片段,并将不相似文本进行...
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景和意义
1.2 旅游网站现状
1.3 本文主要研究内容
1.4 论文的结构安排
2 相关技术简介
2.1 文本分类
2.2 实体识别
2.3 文本相似性度量
2.4 本章小结
3 基于特征词权重的文本分类
3.1 引言
3.2 相关工作
3.3 文本分类算法
3.3.1 特征选择算法简介
3.3.2 特征词类相关性计算
3.3.3 文本类相关性计算
3.4 实验评测
3.4.1 实验数据
3.4.2 实验结果及评测
3.5 本章小结
4 基于属性匹配的相同景点识别
4.1 引言
4.2 实体识别研究现状
4.3 景点实体识别
4.3.1 实体属性提取
4.3.2 实现思路及框架
4.3.3 基于属性对的景点识别实现
4.3.4 交叉验证
4.3.5 实验结果及分析
4.4 本章小结
5 基于内容相似性的景点介绍文本融合
5.1 引言
5.2 研究现状
5.3 文本融合方法
5.3.1 总体思路及框架
5.3.2 相似性度量方法选取
5.3.3 阈值确定及实验结果
5.4 本章小结
6 总结与展望
6.1 工作总结
6.2 工作展望
参考文献
作者在攻读硕士期间发表的论文
作者在攻读硕士期间参与的课题
致谢
【参考文献】:
期刊论文
[1]基于语义信息的中文短信文本相似度研究[J]. 刘金岭,宋连友,范玉虹. 计算机工程. 2012(13)
[2]基于规则和统计相结合的中文命名实体识别研究[J]. 潘正高. 情报科学. 2012(05)
[3]简约语法规则和最大熵模型相结合的混合实体识别[J]. 陆铭,康雨洁,俞能海. 小型微型计算机系统. 2012(03)
[4]一种改进的基于向量空间文本相似度算法的研究与实现[J]. 李连,朱爱红,苏涛. 计算机应用与软件. 2012(02)
[5]基于非线性流形学习和支持向量机的文本分类算法[J]. 任剑锋,梁雪,李淑红. 计算机科学. 2012(01)
[6]文本内容新颖性探测研究综述[J]. 邢美凤,过仕明. 情报科学. 2011(07)
[7]文本相似性度量中参数相关性与优化配置研究[J]. 张祖平,徐昕,龙军,袁鑫攀. 小型微型计算机系统. 2011(05)
[8]基于局部词频指纹的论文抄袭检测算法[J]. 秦玉平,冷强奎,王秀坤,王春立. 计算机工程. 2011(06)
[9]TrigSigs:一种有效的非结构化记录关联合并算法[J]. 吴羽,盛振华,寿黎但,陈刚. 浙江大学学报(工学版). 2010(12)
[10]大数据量的高效重复记录检测方法[J]. 庞雄文,姚占林,李拥军. 华中科技大学学报(自然科学版). 2010(02)
本文编号:3726963
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景和意义
1.2 旅游网站现状
1.3 本文主要研究内容
1.4 论文的结构安排
2 相关技术简介
2.1 文本分类
2.2 实体识别
2.3 文本相似性度量
2.4 本章小结
3 基于特征词权重的文本分类
3.1 引言
3.2 相关工作
3.3 文本分类算法
3.3.1 特征选择算法简介
3.3.2 特征词类相关性计算
3.3.3 文本类相关性计算
3.4 实验评测
3.4.1 实验数据
3.4.2 实验结果及评测
3.5 本章小结
4 基于属性匹配的相同景点识别
4.1 引言
4.2 实体识别研究现状
4.3 景点实体识别
4.3.1 实体属性提取
4.3.2 实现思路及框架
4.3.3 基于属性对的景点识别实现
4.3.4 交叉验证
4.3.5 实验结果及分析
4.4 本章小结
5 基于内容相似性的景点介绍文本融合
5.1 引言
5.2 研究现状
5.3 文本融合方法
5.3.1 总体思路及框架
5.3.2 相似性度量方法选取
5.3.3 阈值确定及实验结果
5.4 本章小结
6 总结与展望
6.1 工作总结
6.2 工作展望
参考文献
作者在攻读硕士期间发表的论文
作者在攻读硕士期间参与的课题
致谢
【参考文献】:
期刊论文
[1]基于语义信息的中文短信文本相似度研究[J]. 刘金岭,宋连友,范玉虹. 计算机工程. 2012(13)
[2]基于规则和统计相结合的中文命名实体识别研究[J]. 潘正高. 情报科学. 2012(05)
[3]简约语法规则和最大熵模型相结合的混合实体识别[J]. 陆铭,康雨洁,俞能海. 小型微型计算机系统. 2012(03)
[4]一种改进的基于向量空间文本相似度算法的研究与实现[J]. 李连,朱爱红,苏涛. 计算机应用与软件. 2012(02)
[5]基于非线性流形学习和支持向量机的文本分类算法[J]. 任剑锋,梁雪,李淑红. 计算机科学. 2012(01)
[6]文本内容新颖性探测研究综述[J]. 邢美凤,过仕明. 情报科学. 2011(07)
[7]文本相似性度量中参数相关性与优化配置研究[J]. 张祖平,徐昕,龙军,袁鑫攀. 小型微型计算机系统. 2011(05)
[8]基于局部词频指纹的论文抄袭检测算法[J]. 秦玉平,冷强奎,王秀坤,王春立. 计算机工程. 2011(06)
[9]TrigSigs:一种有效的非结构化记录关联合并算法[J]. 吴羽,盛振华,寿黎但,陈刚. 浙江大学学报(工学版). 2010(12)
[10]大数据量的高效重复记录检测方法[J]. 庞雄文,姚占林,李拥军. 华中科技大学学报(自然科学版). 2010(02)
本文编号:3726963
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3726963.html