面向海量邮件的检索系统研究与实现
发布时间:2021-06-07 13:06
随着计算机的不断发展和网络的普及,电子邮件作为Internet的重要应用,以其方便、快捷的特性而深受广大网络用户的欢迎。不论是个人、企业、政府甚至包括军方等,都在通过电子邮件来进行日常生活和工作上的联系。然而,非法商家和不法分子利用电子邮件推送广告、病毒、不健康图文以及破坏国家安定团结的非法信息,对个人、企业和国家造成不同程度的安全隐患。现有的比较成熟的技术是邮件过滤,它能屏蔽一些垃圾信息,但不能阻止那些利用网络伪造的破坏国家安全的信息随处传播。如何在浩瀚的信息海洋检索到一些敏感信息,从而追踪到可疑邮件以及可疑用户成为现代信息安全的一个方向。因此迫切需要对海量邮件进行有效的管理和安全监控。针对此问题,本文分析了邮件的文档特性及其格式,提出并设计了一个面向海量邮件的检索系统。该系统能高效地检索到用户感兴趣的邮件正文,收件人发件人等信息,从而有效地解决邮件信息的监控管理。为了提高海量邮件的处理效率,本文重点研究了分布式解析,索引及查询过程。首先介绍了邮件这一特殊文档的相关理论背景,分析了邮件格式和邮件文档的向量空间模型。接着,邮件索引采用传统的倒排索引文档。同时,与普通的检索系统不同,本系...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
查询式Q=ka八(kbV}ifigure2-2QueryQ=ka八(keV-
Figure 2-1 Level Map of MIME Mail如果在邮件中要添加附件,必须定义 multipart/mixed 段;如果存在内嵌资源,至少要定义 multipart/related 段;如果纯文本与超文本共存,至少要定义multipart/alternative 段。总而言之,一个或多个不同的数据段合并在一个单一的体(body)中,实体的头域必须指定 multipart 类型。multipart 诸类型的共同特征是,在段头指定“boundary”参数字符串,段体内的每个子段以此串定界。所有的子段都以“--”+boundary 行开始,父段则以“--”+boundary+“--”行结束。段与段之间也以空行分隔。MIME 邮件的整个结构其实就是递归定义的。Content-Transfer-Encoding 指明了在传输主体时采用了哪种编码方式及必须用哪种解码方式将数据解码成它的原始状态。MIME 邮件可以传送图像、声音、视频以及附件,这些非 ASCII 码的数据都是通过一定的编码规则进行转换后附着在邮件中进行传递的。编码方式存储在邮件的 Content-Transfer-Encoding域中,一封邮件中可能有多个 Content-Transfer-Encoding 域,分别对应邮件不同部分内容的编码方式。目前 MIME 邮件中的数据编码普遍采用 Base64 编码或 Quoted-printable 编码来实现:1. Base64 编码
图 4-5 索引流程Figure 4-5 Flow of Create Index4.4.2 分布式索引算法在解析后,采用特定的格式将解析数据存储。这些在索引阶段和后继索阶段被读取。系统需要对海量的解析数据建立索引,索引过程中,将由产生的数据按 key/value 对读取,key 为文件名,value 为解析后的数据。将 value 数据读取出来,按不同的域建立索引。索引阶段的 map 和 reduce 描述如图 4-6 所示。4.4.3 增量式索引增量索引的思路是,每当有新数据增加进来进行索引时,就形成一段的索引数据,这样,当越来越多的新数据进行索引时就生成了一个索引数合,同时也生成了管理这些索引数据的索引信息集合(Segments),在索引
【参考文献】:
期刊论文
[1]搜索引擎建立倒排索引的算法研究[J]. 王涛,吴洁明. 现代计算机(专业版). 2008(01)
[2]MIME邮件格式分析及信息提取[J]. 孙涛. 计算机与信息技术. 2007(06)
[3]面向对象的邮件解析器的设计与实现[J]. 文英. 计算机与信息技术. 2006(10)
[4]双数组Trie树算法优化及其应用研究[J]. 王思力,张华平,王斌. 中文信息学报. 2006(05)
[5]基于PC机群的并行信息检索系统[J]. 陈小华,赵捧末. 情报杂志. 2005(10)
博士论文
[1]基于语言模型的信息检索系统研究[D]. 张俊林.中国科学院研究生院(软件研究所) 2004
[2]分布式信息检索的研究与应用[D]. 潘谦红.中国科学院研究生院(计算技术研究所) 1999
本文编号:3216631
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
查询式Q=ka八(kbV}ifigure2-2QueryQ=ka八(keV-
Figure 2-1 Level Map of MIME Mail如果在邮件中要添加附件,必须定义 multipart/mixed 段;如果存在内嵌资源,至少要定义 multipart/related 段;如果纯文本与超文本共存,至少要定义multipart/alternative 段。总而言之,一个或多个不同的数据段合并在一个单一的体(body)中,实体的头域必须指定 multipart 类型。multipart 诸类型的共同特征是,在段头指定“boundary”参数字符串,段体内的每个子段以此串定界。所有的子段都以“--”+boundary 行开始,父段则以“--”+boundary+“--”行结束。段与段之间也以空行分隔。MIME 邮件的整个结构其实就是递归定义的。Content-Transfer-Encoding 指明了在传输主体时采用了哪种编码方式及必须用哪种解码方式将数据解码成它的原始状态。MIME 邮件可以传送图像、声音、视频以及附件,这些非 ASCII 码的数据都是通过一定的编码规则进行转换后附着在邮件中进行传递的。编码方式存储在邮件的 Content-Transfer-Encoding域中,一封邮件中可能有多个 Content-Transfer-Encoding 域,分别对应邮件不同部分内容的编码方式。目前 MIME 邮件中的数据编码普遍采用 Base64 编码或 Quoted-printable 编码来实现:1. Base64 编码
图 4-5 索引流程Figure 4-5 Flow of Create Index4.4.2 分布式索引算法在解析后,采用特定的格式将解析数据存储。这些在索引阶段和后继索阶段被读取。系统需要对海量的解析数据建立索引,索引过程中,将由产生的数据按 key/value 对读取,key 为文件名,value 为解析后的数据。将 value 数据读取出来,按不同的域建立索引。索引阶段的 map 和 reduce 描述如图 4-6 所示。4.4.3 增量式索引增量索引的思路是,每当有新数据增加进来进行索引时,就形成一段的索引数据,这样,当越来越多的新数据进行索引时就生成了一个索引数合,同时也生成了管理这些索引数据的索引信息集合(Segments),在索引
【参考文献】:
期刊论文
[1]搜索引擎建立倒排索引的算法研究[J]. 王涛,吴洁明. 现代计算机(专业版). 2008(01)
[2]MIME邮件格式分析及信息提取[J]. 孙涛. 计算机与信息技术. 2007(06)
[3]面向对象的邮件解析器的设计与实现[J]. 文英. 计算机与信息技术. 2006(10)
[4]双数组Trie树算法优化及其应用研究[J]. 王思力,张华平,王斌. 中文信息学报. 2006(05)
[5]基于PC机群的并行信息检索系统[J]. 陈小华,赵捧末. 情报杂志. 2005(10)
博士论文
[1]基于语言模型的信息检索系统研究[D]. 张俊林.中国科学院研究生院(软件研究所) 2004
[2]分布式信息检索的研究与应用[D]. 潘谦红.中国科学院研究生院(计算技术研究所) 1999
本文编号:3216631
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/3216631.html