面向网页的主题概念挖掘
本文关键词:面向网页的主题概念挖掘,由笔耕文化传播整理发布。
【摘要】:随着万维网在全球范围内的普及,Internet上出现了大量的信息。庞大的信息量在给人们带来了更多资源的同时,也带来了信息重复、驳杂、搜索结果精确度不高的问题。搜索引擎返回的众多结果中存在大量与用户所需信息完全不相关甚至相关程度很低的网页文本,用户浪费在查找和判断搜索结果上的时间大大增加。信息的重复和驳杂使得用户很难有效且快速的获取所需。鉴于此,本文提出了一种主题挖掘方法,该方法通过分析网页的HTML文本挖掘出网页的主题概念,它可以减少用户浏览网页的时间,使得用户可以快速有效的获取相关信息。 网页的HTML源代码包含大量的信息,除文字外,,还包含一定的格式、图片、链接等特有信息,这些信息对文字有突出加强或补充说明的作用。词语的一词多义现象使得仅使用词语作为主题存在描述不清的问题,因此,本文首先使用词义消歧方法获得候选主题的词义,即概念;其次统计网页文字信息中各候选主题概念的频率构建初始文本特征向量。但是,依据概念出现频率构建的文本向量存在信息不足的问题,本文针对此问题提出了标签影响因子和位置影响因子两个概念,充分利用概念所属的HTML标签以及概念在网页中的位置对概念的初始权重进行修正。其中标签影响因子依据所包含信息是否可在网页中显示分为可见标签和不可见标签,充分利用了文字所属的HTML标签对文字的影响。位置影响因子通过将网页文字信息划分为若干段,统计得到各分段的权重。本文通过统计ODP分类目录中business主题下的若干网页得到各标签的权重以及文本各分段的位置权重。依据概念所属的可见标签以及概念的位置对概念的权重进行初步修正,然后利用不可见标签对初步修正后的概念进行进一步的修正得到概念的最终权重,最后选取权重最大的前n个概念作为网页的主题概念。 实验表明,当所选主题概念的个数越大时,主题挖掘的准确率越高,当n取值为10时,各主题的主题挖掘准确率都在70%以上,最高可达98%。实验验证了权重修正的必要性,并给出了n值的一般取值。通过本文提出的网页主题挖掘算法,可以大大减少用户浏览和查找所需信息的时间,提高信息查找的效率。
【关键词】:词性标注 词义消歧 标签影响因子 位置影响因子 权重修正
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要4-6
- Abstract6-10
- 第1章 绪论10-16
- 1.1 研究背景及意义10-11
- 1.2 国内外研究现状11-14
- 1.3 本文主要研究工作14-15
- 1.4 本文组织结构15
- 1.5 本章小结15-16
- 第2章 相关知识介绍16-26
- 2.1 简介16-19
- 2.1.1 WordNet 概述16
- 2.1.2 WordNet 中语义关系16-18
- 2.1.3 WordNet 应用18-19
- 2.2 词义消歧简介19-25
- 2.2.1 问题定义19-20
- 2.2.2 经典词义消歧方法20-24
- 2.2.3 词义消歧应用24-25
- 2.3 本章小结25-26
- 第3章 基于词义消歧的主题概念挖掘26-39
- 3.1 网页预处理26-28
- 3.2 词义消歧28-32
- 3.3 权重修正32-36
- 3.3.1 标签影响因子32-34
- 3.3.2 位置影响因子34-35
- 3.3.3 概念权重修正35-36
- 3.4 确定主题概念36-38
- 3.5 本章小结38-39
- 第4章 实验及结果分析39-48
- 4.1 实验数据及评价指标39-41
- 4.2 标签权重计算41-42
- 4.3 位置权重计算42-43
- 4.4 权重修正结果及分析43-47
- 4.5 本章小结47-48
- 第5章 总结及展望48-50
- 5.1 全文总结48-49
- 5.2 展望49
- 5.3 本章小结49-50
- 参考文献50-54
- 作者简介及硕士期间科研成果54-55
- 致谢55
【参考文献】
中国期刊全文数据库 前10条
1 吴昊;耿焕同;;基于潜在语义分析的BBS主题发现算法研究[J];电脑知识与技术;2008年29期
2 隋丽萍;徐承韬;李瑞芳;;基于HTML结构的Web文本主题挖掘研究[J];电脑与电信;2007年01期
3 张晨逸;孙建伶;丁轶群;;基于MB-LDA模型的微博主题挖掘[J];计算机研究与发展;2011年10期
4 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期
5 李芳;何婷婷;宋乐;;评价主题挖掘及其倾向性识别[J];计算机科学;2012年06期
6 王林;戴冠中;;基于复杂网络社区结构的论坛热点主题发现[J];计算机工程;2008年11期
7 李智辉;卢苇;;Web文本主题挖掘技术研究[J];计算机教育;2005年11期
8 熊朝松;甘岚;;基于子主题概念的Web主题挖掘[J];计算机与现代化;2006年04期
9 谢昊;江红;;一种面向微博主题挖掘的改进LDA模型[J];华东师范大学学报(自然科学版);2013年06期
10 王小华;徐宁;谌志群;;基于共词分析的文本主题词聚类与主题发现[J];情报科学;2011年11期
中国博士学位论文全文数据库 前2条
1 周子力;基于WordNet的本体构建及其在安全领域应用关键技术研究[D];华东师范大学;2009年
2 常鹏;基于词共现的文本主题挖掘模型和算法研究[D];天津大学;2010年
本文关键词:面向网页的主题概念挖掘,由笔耕文化传播整理发布。
本文编号:377402
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/377402.html