当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于搜索引擎的邮箱地址自动提取系统开发

发布时间:2018-11-05 17:42
【摘要】:信息抽取技术已成为当前的研究热点之一,而对搜索引擎返回信息中存在的所谓的Rich Data Poor Information问题也是亟待解决的,若将两者相结合无疑是件很有趣又有实际价值的事情。 本文就把为大家所熟知熟用的搜索引擎与信息提取技术相结合,开发出了一种基于搜索引擎的邮箱地址提取系统。有效的解决了常见邮箱搜索器中普遍存在的精确度不高、用户自主选择性低、前后两次结果会被重复提取等问题。 本文的主要工作内容及创新点如下: 首先,通过URL地址拼接技术,调用各大搜索引擎的返回数据获取源数据。用户提交关键字和需要处理的搜索引擎起始页面后,根据搜索引擎返回数据首页的url地址结构,拼接出首页的URL链接地址。对比于之前的研究,本文实现了自动翻页提取,即实现对“下一页”链接地址的获取。此外,为了增加Email系统中用户的自主选择性,用户可以根据需要,对要处理的网页页数范围进行限制。 其次,HTMLParser包对html网页进行解析,利用正则表达式并对Email地址进行提取。为了获取更多更全面的信息,本文利用HTMLParser对网页内部的URL链接地址进行了深层提取。用户可以根据自己的需要,,选择需要处理的网页层数级别。 再次,为了进一步提高用户的自主选择性,用户可以根据自身需要,选择对最后搜索结果中邮件服务器域名(如163.com、126.com、edu.cn等等)进行过滤。此外为了避免本次提取到的信息下次不会被重复提取,选择将结果保存在Access数据库中。抽取的结果也可以手动选择以文本文件的格式保存。 最后,对系统进行了测试工作,针对出现的问题进行了改善,并对系统结果做了分析和评价,发现系统稳定性良好,可正常运行15小时(早8:00至23:00),足以满足实际需要。而且召回率和准确率都在94%以上,这比现存的邮箱地址搜索器实现的结果都要高。
[Abstract]:Information extraction technology has become one of the current research hotspots, and the so-called Rich Data Poor Information problem in the return information of search engines is urgently needed to be solved. It is undoubtedly very interesting and valuable to combine the two technologies. This paper combines the familiar search engine with information extraction technology and develops a search engine based mailbox address extraction system. It effectively solves the common problems such as low accuracy, low user autonomy and low selectivity in common mailbox searchers, and the results will be extracted repeatedly before and after two times. The main contents and innovations of this paper are as follows: firstly, through the URL address splicing technology, the return data of each major search engine is called to obtain the source data. After the user submits the keywords and the search engine starting page which needs to be processed, according to the url address structure of the data home page returned by the search engine, the URL link address of the front page is spliced out. Compared with the previous research, this paper realizes the automatic page-turning extraction, that is to achieve the "next page" link address acquisition. In addition, in order to increase the self-selection of users in Email system, users can limit the number of pages to be processed according to their needs. Secondly, the HTMLParser package parses the html pages and extracts the Email addresses by using regular expressions. In order to obtain more and more comprehensive information, this paper uses HTMLParser to extract the URL link address in the web page. According to their own needs, users can choose the level of web pages to be handled. Thirdly, in order to further improve the user's self-selectivity, users can choose to filter the domain name of mail server in the final search results (such as 163.com.com 126.comedu.cn) according to their own needs. In addition, in order to avoid the information extracted this time will not be repeated extraction next time, choose to save the results in the Access database. The extracted results can also be manually selected to be saved in a text file format. Finally, the system is tested, the problems are improved, and the system results are analyzed and evaluated. It is found that the system is stable and can run normally for 15 hours (from 8:00 to 23:00). Enough to meet actual needs. Moreover, the recall rate and accuracy rate are more than 94%, which is higher than that achieved by the existing mailbox address searcher.
【学位授予单位】:浙江理工大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 PowerKey;;搜索黑客的10条绝密笔录[J];电脑爱好者;2009年24期

2 张继刚;搜索引擎使用技巧[J];网络与信息;1999年09期

3 ;关键词搜索[J];每周电脑报;2000年38期

4 陈冰;;饿狼一样的网站提交工具——“提交饿狼”[J];科学之友;2000年07期

5 许斗;从Google看新一代搜索引擎的发展趋向[J];芜湖职业技术学院学报;2001年01期

6 周毅华;从搜索引擎的分类看其应用技巧[J];图书馆理论与实践;2002年06期

7 邹小筑;搜索引擎的选择与使用技巧[J];图书馆学研究;2002年05期

8 林燕;Google搜索引擎的搜索功能与使用技巧[J];河北科技图苑;2003年05期

9 林中;GOOGLE搜索引擎的关键词检索[J];中国信息导报;2003年03期

10 封剑待封喉;吸星大法“搜”天下 笑傲网络任我行——搜索引擎绝对专题[J];网络与信息;2003年07期

相关会议论文 前10条

1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年

3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年

6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年

8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年

9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年

10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年

相关重要报纸文章 前10条

1 特约作者 高博;谷歌Instant重新定义搜索引擎[N];电脑报;2010年

2 李一鑫;搜索排名的红与黑[N];财经时报;2007年

3 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年

4 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年

5 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年

6 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年

7 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年

8 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年

9 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年

10 孙t;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年

相关博士学位论文 前10条

1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年

5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

7 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

9 郑文良;基于简单本体的农业P2P搜索引擎关键技术研究[D];沈阳农业大学;2013年

10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年

相关硕士学位论文 前10条

1 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年

2 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年

3 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年

4 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年

5 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年

6 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年

7 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年

8 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年

9 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年

10 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年



本文编号:2312826

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2312826.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c19cc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com