面向中文搜索引擎的网页结构化信息获取系统的设计与实现
发布时间:2022-01-01 11:13
搜索引擎是一种特殊的检索系统,其信息来源于互联网,处理的格式大多为HTML,而中文搜索引擎相比英文搜索引擎在编码、分词等问题上都有其自身特点。笔者针对中文搜索引擎提出了一种网页结构化信息获取系统的设计方案,并使用Python语言实现。该系统由网页抓取、网页信息提取、敏感词过滤三部分组成,最后可获得结构化的网页有效信息。其中,网页抓取采用宽度优先搜索的策略;网页信息提取部分采用基于标签的文本提取方法;敏感词过滤部分针对中文特点提出了一种过滤算法,该算法在模式串长度较短的情况下平均复杂度为O(n)。实践证明,该系统与Lucene等检索系统结合即可提供中文搜索引擎服务。
【文章来源】:信息与电脑(理论版). 2016,(23)
【文章页数】:3 页
【部分图文】:
系统的运韦澎l制
?奈谋臼导噬显谒?唇拥降囊趁嬷幸汛?在,因此,<a>标签中的文本不应作为该网页的关键信息。因此,首先过滤掉<a>标签中的文本。然后,剩下的内容中<head>的描述性内容和<title><h1><h2><h6><p>标签的文本即为该页面的关键内容。因此,信息提取的流程用伪代码可以描述为:HTML=抓取的网页内容去掉HTML中的<a>标签M=<meta>标签里的keywords文本和description文本T=<title>标签中的文本H=<h?>标签中的文本P=<p>标签中的文本关键信息即为M+T+H+P在对于上面的流程,可以很容易通过Python的beautifulsoup库实现。图1系统的运行机制—173—
【参考文献】:
期刊论文
[1]中文搜索引擎现状与展望[J]. 都云程,卢献华. 中文信息学报. 1999(03)
本文编号:3562255
【文章来源】:信息与电脑(理论版). 2016,(23)
【文章页数】:3 页
【部分图文】:
系统的运韦澎l制
?奈谋臼导噬显谒?唇拥降囊趁嬷幸汛?在,因此,<a>标签中的文本不应作为该网页的关键信息。因此,首先过滤掉<a>标签中的文本。然后,剩下的内容中<head>的描述性内容和<title><h1><h2><h6><p>标签的文本即为该页面的关键内容。因此,信息提取的流程用伪代码可以描述为:HTML=抓取的网页内容去掉HTML中的<a>标签M=<meta>标签里的keywords文本和description文本T=<title>标签中的文本H=<h?>标签中的文本P=<p>标签中的文本关键信息即为M+T+H+P在对于上面的流程,可以很容易通过Python的beautifulsoup库实现。图1系统的运行机制—173—
【参考文献】:
期刊论文
[1]中文搜索引擎现状与展望[J]. 都云程,卢献华. 中文信息学报. 1999(03)
本文编号:3562255
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3562255.html