面向问答类网站的垂直搜索引擎的研究与实现
本文关键词:面向问答类网站的垂直搜索引擎的研究与实现,,由笔耕文化传播整理发布。
《北京邮电大学》 2013年
面向问答类网站的垂直搜索引擎的研究与实现
梁淼
【摘要】:目前,互联网上的信息爆炸式增长,人们通过搜索引擎从海量信息中寻找自己想要的各方面信息,但通用搜索引擎对检索出的信息的准确性和相关性呈下降趋势,人们需要能够对特定行业的信息快速准确定位的垂直搜索引擎。近些年国内外兴起了众多问答类网站,与搜索引擎的通过机器获得结果不同,此类网站是用户基于自己的知识构成进行“一问多答”,同时它又具有“针对性强”、“快速答疑”、“流量大”等特点,是用户提问题找答案的一种有效方式,但大部分的问答类网站只提供站内搜索,对问答类的垂直搜索引擎的实践却不是很成熟,这就限制了用户针对特定问题的搜索,面向特定主题的问答类搜索引擎能够满足用户对专业问题的需要。 本文以汽车问答网页作为实验数据,在对搜索引擎关键技术进行深入研究基础上,完成了一个面向问答类网站的垂直搜索引擎,论文的主要工作包括以下几点: 1)通过对问答类站点特性的分析,提出了问答类站点重要性的动态评价机制,解决了对不同问答类站点来源同等对待的问题,根据该机制对空间向量模型中特征词权重的计算公式TFIDF和空间向量模型的表示进行了改进,使其更具有主题倾向性。 2)针对问答的搜索引擎主题爬虫的实现。研究了主题爬虫的一般模型,在链接过滤器方面提出了基于Nutch配置文件定制链接抓取规则的方法,在主题过滤器方面,采用文档频率算法确立了主题词库,采用人工专家和基于搜索引擎的初始种子确立方法,主题相关度判定采用了文本分类方法,并对文本分类效果进行了验证。 3)针对问答的信息抽取模块。提出了基于网页结构和通过问答站点链接控制具体的信息抽取方式相结合的方法,中文分词部分,采用了庖丁分词器。 4)针对问答的索引和检索模块。提出增加问答信息索引域,强调搜索重点,并依据问答类站点重要性动态评价机制,对索引域的权重因子进行了设定,使问答引擎排序结果更趋合理。 最后通过Nutch框架对问答类垂直搜索引擎进行了实现,实验分析表明爬虫抓取性能和搜索引擎的查询查准率都有所提升。
【关键词】:
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前10条
1 孔维亭;闫宏印;;基于Lucene的自动答疑系统的设计[J];电脑开发与应用;2012年04期
2 单松巍,冯是聪,李晓明;几种典型特征选取方法在中文网页分类上的效果比较[J];计算机工程与应用;2003年22期
3 杨凯峰;张毅坤;李燕;;基于文档频率的特征选择方法[J];计算机工程;2010年17期
4 胡涛;路红英;;基于Nutch的搜索引擎的研究[J];计算机时代;2007年01期
5 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
6 刘运强;;垂直搜索引擎的研究与设计[J];计算机应用与软件;2010年07期
7 孙殿哲;魏海平;陈岩;;Nutch中庖丁解牛中文分词的实现与评测[J];计算机与现代化;2010年06期
8 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
9 曹羽中;曹勇刚;金茂忠;刘超;;支持智能中文分词的互联网搜索引擎的构建[J];计算机工程与设计;2006年23期
10 李村合;吕克强;;Nutch搜索引擎的页面排序修改方法研究[J];计算机工程与设计;2009年06期
【共引文献】
中国期刊全文数据库 前10条
1 王正;陆余良;刘金红;施凡;;基于Lucene的互联网文献信息检索系统的研究[J];安徽大学学报(自然科学版);2009年05期
2 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
3 高博;朱东华;韩士雄;;一种智能化的信息采集系统的研究与实现[J];兵工学报;2009年S1期
4 李玉鑑;周兰珍;操卫平;;基于DF和CHI的联合特征提取方法及其应用[J];北京工业大学学报;2008年09期
5 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
6 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
7 付雪峰;刘邱云;;不确定性推理在文本分类上的应用研究[J];江西师范大学学报(自然科学版);2007年04期
8 高东平;;基于类型论的汉语分词系统TTCS[J];重庆理工大学学报(社会科学);2011年08期
9 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
10 毛晓蛟;;搜索引擎中网络蜘蛛的研究与实现[J];电脑编程技巧与维护;2010年18期
中国重要会议论文全文数据库 前9条
1 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
2 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
3 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
4 董强;郝长伶;董振东;;基于《知网》的中文语块抽取器[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 李斌;陈小荷;方芳;徐艳华;;高频最大交集型歧义字段问题研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 孙承杰;黄昌宁;关毅;;基于标注语料库的组合歧义检测与消解[A];第三届学生计算语言学研讨会论文集[C];2006年
7 张霄军;董宇;陈小荷;;基于语料考察的“组合型歧义”与“切分变异”辨析[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 单铁城;张安妮;马德辉;;基于爬虫改进算法的个性化搜索引擎应用研究[A];战略性新兴产业与科技支撑——2012年山东省科协学术年会论文集[C];2012年
中国博士学位论文全文数据库 前10条
1 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
2 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
3 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
4 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
5 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
6 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
7 张亮;面向开放域的中文问答系统问句处理相关技术研究[D];南京理工大学;2006年
8 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
9 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
10 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
中国硕士学位论文全文数据库 前10条
1 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
2 王有权;基于Web的智能答疑技术研究与实现[D];南京财经大学;2010年
3 李永春;主题搜索引擎的研究与实现[D];哈尔滨理工大学;2010年
4 巫昌凯;企业知识库系统中复杂查询系统的设计与实现[D];华南理工大学;2010年
5 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
6 冯叶磊;基于隐语义的中医药文献搜索引擎[D];浙江大学;2011年
7 王林平;基于内容的电子邮件过滤系统的研究[D];电子科技大学;2010年
8 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
9 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
10 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 王仕仲;宁龙兵;;基于Nutch的中文搜索引擎的研究与实现[J];电脑开发与应用;2009年07期
3 张斌;周尔宁;;基于Nutch的分布式纺织垂直搜索引擎研究[J];电脑知识与技术;2009年21期
4 单松巍,冯是聪,李晓明;几种典型特征选取方法在中文网页分类上的效果比较[J];计算机工程与应用;2003年22期
5 彭波;搜索引擎的混合索引技术[J];计算机工程与应用;2004年22期
6 李军;黄海宽;曹琦;;基于支持向量机的中药工艺参数优化研究[J];计算机工程与应用;2007年36期
7 胡长春;刘功申;;面向搜索引擎Lucene的中文分析器[J];计算机工程与应用;2009年12期
8 张庆扬;柴胜;;使用二级索引的中文分词词典[J];计算机工程与应用;2009年19期
9 张裔智;赵毅;汤小斌;;MD5算法研究[J];计算机科学;2008年07期
10 李盛韬,赵章界,余智华;基于主题的Web信息采集系统的设计与实现[J];计算机工程;2003年17期
中国博士学位论文全文数据库 前1条
1 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年
中国硕士学位论文全文数据库 前1条
1 苏景春;基于Lucene的全文检索系统的研究与应用[D];北京交通大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 一林;;垂直搜索:前进路上的喜与忧[J];互联网天地;2010年02期
2 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期
3 边凯;;你会搜索吗?[J];中国计算机用户;2007年23期
4 庄芯;;风投押宝垂直搜索 各方巨头介入又添疑点[J];IT时代周刊;2008年01期
5 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期
6 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期
7 胡洁;丁宁;关静;曹福年;张磊;;基于“PUBMED+PDF”的医学垂直搜索引擎的实践[J];信息系统工程;2009年05期
8 张美芳;张迎春;;浅议垂直搜索引擎服务市场的商业模式[J];现代商业;2010年06期
9 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期
10 王宁宁;;浅谈CNNIC最新报告对垂直搜索引擎领域的启示[J];图书馆理论与实践;2009年01期
中国重要会议论文全文数据库 前10条
1 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
4 迟骋;;网络监听[A];第十九次全国计算机安全学术交流会论文集[C];2004年
5 迟骋;;网络监听在检察实践中的应用[A];第二十次全国计算机安全学术交流会论文集[C];2005年
6 凌媛;郑立乔;刘宝云;;我国十大城市交通门户网站维护主体复杂性分析[A];2007第三届中国智能交通年会论文集[C];2007年
7 郑海峰;;地市级广播电台网站的建立和规划[A];中国新闻技术工作者联合会五届一次理事会暨学术年会论文集(下篇)[C];2009年
8 彭永新;郭嘉;王康平;;高校心理辅导网站的设计尝试[A];中国心理卫生协会大学生心理咨询专业委员会全国第七届大学生心理健康教育与心理咨询学术交流会暨专业委员会成立十周年纪念大会论文集[C];2001年
9 王京生;;北京市区县决策气象服务系统网站的建设[A];信息技术在气象领域的开发应用论文集(一)[C];2005年
10 林明和;;网络信息资源在中医药期刊编辑工作中的应用[A];学报编辑论丛(第十五集)[C];2007年
中国重要报纸全文数据库 前10条
1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;[N];计算机世界;2010年
2 王艳;[N];中国旅游报;2000年
3 赛迪网 方刚;[N];中国计算机报;2000年
4 王靖;[N];人民日报海外版;2000年
5 徐超;[N];中华新闻报;2007年
6 本报记者 周婷;[N];中国证券报;2008年
7 小文;[N];中国服饰报;2008年
8 本报记者 李佳祺 苏显龙 赵永新;[N];人民日报;2009年
9 赵齐;[N];国际商报;2009年
10 本报记者 李可 通讯员 崔栋君;[N];光明日报;2009年
中国博士学位论文全文数据库 前10条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 汲业;面向图像的垂直搜索引擎关键技术研究[D];大连海事大学;2013年
5 姜岩;消费者购物网站依恋机理研究[D];大连理工大学;2013年
6 尹文科;基于本体的视频服务网站监管技术研究[D];中国科学技术大学;2013年
7 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
8 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
9 吴胜;网站信息分类体系优化方法及其应用[D];南京林业大学;2009年
10 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 梁淼;面向问答类网站的垂直搜索引擎的研究与实现[D];北京邮电大学;2013年
2 齐鹏;垂直搜索引擎分类索引系统的设计与实现[D];大连海事大学;2010年
3 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年
4 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年
5 华大年;手机产品信息垂直搜索引擎系统设计与开发[D];武汉理工大学;2011年
6 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年
7 李海升;垂直搜索引擎的研究与实现[D];西安电子科技大学;2009年
8 丁文;垂直搜索引擎在网络购物系统中的研究与应用[D];中国海洋大学;2011年
9 张倩;教育信息垂直搜索引擎的研究[D];吉林大学;2012年
10 张行;木材垂直搜索引擎设计与实现[D];北京林业大学;2012年
本文关键词:面向问答类网站的垂直搜索引擎的研究与实现,由笔耕文化传播整理发布。
本文编号:64376
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/64376.html