中文短文本相似度算法研究及其在电视节目管理中的应用
发布时间:2021-08-14 17:59
随着互联网、智能终端的普及和发展,信息化交流越来越便捷,每时每刻都在产生大量的信息,电子文本信息是其中一种重要的传播形式。目前人类已进入了大数据时代,各行各业都在研究如何从海量信息中怎样挖掘出有价值的数据,文本相似度算法研究便是其中一项基础性工作,目前已在信息检索、主题分析、人工智能等多个领域进行了大量研究和应用。短文本泛指文本长度较小,规模巨大、内容稀少、精炼内聚、高时效性、非规范化等特点。本文主要研究短文本相似度的度量指标和相似度算法,其主要目的在于提供一套从内外部数据获取、数值化、计算质量好、完整的相似度计算方法,短文本研究内容在相关领域有着很高的理论价值和应用价值。进入二十一世纪以来,短文本相似度算法研究取得了很大的进展,集中了该领域大部分研究成果。已有的短文本相似度算法的思路主要集中在利用短文本内、外部信息的层面,很少考虑数据之间的联系,因此,它们在处理内容简短、非标准化、非大众化的短文本时的语言时,很难取得好的效果。为了解决这一问题,本文在查阅大量文献和进行大量数据分析的基础上,提出了一种引入分词赋权和段位匹配的短文本相似度算法框架,并且使用电视台的节目短文本语料作为实验数...
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
ICTCLAS分词系统的框架结构图
图 2-2 东方卫视节目单Fig.2-2 TV listings of Dragon TV为建立专业名词语料库,最简单的方法就是利用相关专业网站的数据,利用聚集爬虫抓取想要获取的信息。本文采用了能够定向抓取相关网页资源的聚集爬虫,首先为它设好既定的抓取目标,然后它就会有选择的访问互联网上的网页,获取本文所需要的电视节目名称信息。数据来源方面,本文选择了专业互联网网站“电视猫”网,然后利用聚焦爬虫自动将网站上的电视节目实时更新到电视节目专业名词词典中。聚集爬虫的工作流程如下图 2-3[46-48],首先获取东方卫视下周一的节目单网页的 URL,然后根据自定义的网页分析算法过滤掉节目短文本外的所有无关链接和信息,保留蓝色字体的超链接并将其放入等待抓取的 URL 队列。其次判断这些节目名词是否在用户词典中,若不存在则存入节目名词语料库中,若已经存在则按照搜索策略继续抓取满足要求的网页 URL,并重复上述过程,直到将本周所有的节目短文本遍历完成后停止。由图 2-3 可知,电视猫对于每档节目都对其节目名词添加了超链接,为了进一步向用户提供节目的详细信息,网络爬虫也可以利用这些超链接,自动获取更
图 2-3 传统爬虫和聚集爬虫的工作流程[46-48]Fig.2-3 Working process of Web Crawler and focused web crawler[46-48]在本算法中,网络爬虫构建节目专有名词语料库的具体工作步骤为:第一步:发起请求。通过 HTTP 库,对目标站点“电视猫”进行请求。此步骤效果等同于用户打开浏览器,输入网址 www.tvmao.com,用户可设置网络爬虫每周日某时(如:20:00)定时开始此步工作;第二步: 获取响应内容。如果请求的内容存在于服务器上,那么服务器会返回请求的内容,一般为:HTML、二进制文件(视频,音频)、文档或 JSON 字符串等,本研究将返回相应频道节目单页面的所有文本信息,存储于 txt 文档中。第三步:解析内容。对于用户而言,是要寻找自己需要的信息;网络爬虫利用正则表达式,遍历超链接文本中为电视节目名称的词语,并判断是否已存在ICTCLAS 分词系统的用户词典中,如果已经存在,则忽略该条记录继续解析下一条记录,如果不存在,则进入第四步;第四步:保存数据。解析得到的数据可以多种形式,如文本(txt 格式),音频,视频保存在本地。然后返回第三步,若遍历完所有词语,则结束,系统网络
本文编号:3342927
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
ICTCLAS分词系统的框架结构图
图 2-2 东方卫视节目单Fig.2-2 TV listings of Dragon TV为建立专业名词语料库,最简单的方法就是利用相关专业网站的数据,利用聚集爬虫抓取想要获取的信息。本文采用了能够定向抓取相关网页资源的聚集爬虫,首先为它设好既定的抓取目标,然后它就会有选择的访问互联网上的网页,获取本文所需要的电视节目名称信息。数据来源方面,本文选择了专业互联网网站“电视猫”网,然后利用聚焦爬虫自动将网站上的电视节目实时更新到电视节目专业名词词典中。聚集爬虫的工作流程如下图 2-3[46-48],首先获取东方卫视下周一的节目单网页的 URL,然后根据自定义的网页分析算法过滤掉节目短文本外的所有无关链接和信息,保留蓝色字体的超链接并将其放入等待抓取的 URL 队列。其次判断这些节目名词是否在用户词典中,若不存在则存入节目名词语料库中,若已经存在则按照搜索策略继续抓取满足要求的网页 URL,并重复上述过程,直到将本周所有的节目短文本遍历完成后停止。由图 2-3 可知,电视猫对于每档节目都对其节目名词添加了超链接,为了进一步向用户提供节目的详细信息,网络爬虫也可以利用这些超链接,自动获取更
图 2-3 传统爬虫和聚集爬虫的工作流程[46-48]Fig.2-3 Working process of Web Crawler and focused web crawler[46-48]在本算法中,网络爬虫构建节目专有名词语料库的具体工作步骤为:第一步:发起请求。通过 HTTP 库,对目标站点“电视猫”进行请求。此步骤效果等同于用户打开浏览器,输入网址 www.tvmao.com,用户可设置网络爬虫每周日某时(如:20:00)定时开始此步工作;第二步: 获取响应内容。如果请求的内容存在于服务器上,那么服务器会返回请求的内容,一般为:HTML、二进制文件(视频,音频)、文档或 JSON 字符串等,本研究将返回相应频道节目单页面的所有文本信息,存储于 txt 文档中。第三步:解析内容。对于用户而言,是要寻找自己需要的信息;网络爬虫利用正则表达式,遍历超链接文本中为电视节目名称的词语,并判断是否已存在ICTCLAS 分词系统的用户词典中,如果已经存在,则忽略该条记录继续解析下一条记录,如果不存在,则进入第四步;第四步:保存数据。解析得到的数据可以多种形式,如文本(txt 格式),音频,视频保存在本地。然后返回第三步,若遍历完所有词语,则结束,系统网络
本文编号:3342927
本文链接:https://www.wllwen.com/guanlilunwen/yunyingzuzhiguanlilunwen/3342927.html