一种基于超链接结构的向量空间模型改进算法
[Abstract]:In the information retrieval system based on vector space model, TF-IDF algorithm is widely used in keyword-based information retrieval. However, for the unique hyperlink structure of a web page, it is necessary to have a technique to represent the content of the web page and take into account the web page content linked with it at the same time. In this paper, the essence of vector space model is analyzed, and the reason for its low precision is found. Based on the traditional model, an improved algorithm of vector space model based on hyperlink structure is proposed. Experimental analysis shows that the improved algorithm improves the retrieval accuracy by 10% compared with the original algorithm, and improves the retrieval effect to a certain extent.
【作者单位】: 燕山大学信息科学与工程学院 燕山大学信息科学与工程学院
【分类号】:TP301.6
【参考文献】
相关期刊论文 前3条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
2 李凯,赫枫龄,左万利;PageRank-Pro——一种改进的网页排序算法[J];吉林大学学报(理学版);2003年02期
3 杨小平,丁浩,黄都培;基于向量空间模型的中文信息检索技术研究[J];计算机工程与应用;2003年15期
【共引文献】
相关期刊论文 前10条
1 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
2 李玉擰;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期
3 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
4 屈峗;杨捧;张文静;;基于信息粒度的主题相似性信息检索[J];河北农业大学学报;2011年01期
5 吴江宁;王晓欢;;面向呼叫中心的知识导航系统研究[J];大连理工大学学报;2009年06期
6 白凤凤;;基于不平衡数据集的文本分类技术研究[J];电脑编程技巧与维护;2010年06期
7 阎亚杰;;网页去重方法研究[J];电脑开发与应用;2008年08期
8 陈丽珍;卡米力·毛依丁;;基于WEB信息检索系统中维文处理方面的研究[J];电脑知识与技术;2005年36期
9 张红;;基于语义的中文搜索引擎研究[J];电脑知识与技术;2009年08期
10 肖铮;庄建;庄重;;基于链接结构的PageRank排序算法研究[J];电脑知识与技术;2009年20期
相关会议论文 前9条
1 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十二届中国(天津)'2008IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2008年
3 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十三届中国(天津)2009IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2009年
4 刘国刚;;人工智能客户服务体系的研究与实现[A];2008年中国通信学会无线及移动通信委员会学术年会论文集[C];2008年
5 彭渊;赵铁军;郑德权;于浩;;基于特征句抽取的网页去重研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 张爱华;靖红芳;王斌;徐燕;;文本分类中特征权重因子的作用研究[A];第五届全国信息检索学术会议论文集[C];2009年
7 王珍;维尼拉·木沙江;赵丽红;;维、哈、柯文搜索引擎中自动分类技术的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
8 赵燕平;李超;;网络安全信息挖掘中的特征选择与专利分析研究[A];2004年中国管理科学学术会议论文集[C];2004年
9 王慧芳;张勇;邢春晓;张文珂;杨吉江;;文本摘要算法集成与实现[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
相关博士学位论文 前10条
1 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
2 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
3 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
4 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
5 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
6 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
7 周斌;面向公众服务的电子政务研究[D];同济大学;2007年
8 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
9 席运江;组织知识的网络表示模型及分析方法[D];大连理工大学;2007年
10 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
相关硕士学位论文 前10条
1 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
2 蔡颂梅;语义增强的关系相似度度量算法研究[D];华东师范大学;2011年
3 王雅菲;文本分类中特征降维方法的研究[D];长春工业大学;2010年
4 王阿婷;基于概念集合的网页内容过滤方法的研究[D];北京交通大学;2010年
5 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
6 李慧;基于贝叶斯分类方法的中文问句分类研究[D];石家庄铁道学院;2010年
7 贾俊凯;公安业务文本信息挖掘的研究与实现[D];东华大学;2011年
8 巩军全;文本分类算法的研究与改进[D];西安电子科技大学;2010年
9 黄少冰;基于J2ME的移动网络个性化信息推荐研究[D];西安电子科技大学;2011年
10 杨玉珍;基于统计与规则的特征权重计算方法研究与应用[D];山东师范大学;2011年
【二级参考文献】
相关期刊论文 前1条
1 李凡,鲁明羽,陆玉昌;关于文本特征抽取新方法的研究[J];清华大学学报(自然科学版);2001年07期
【相似文献】
相关期刊论文 前10条
1 岑荣伟;刘奕群;张敏;茹立云;马少平;;基于日志挖掘的搜索引擎用户行为分析[J];中文信息学报;2010年03期
2 张宇;范基礼;郑伟;邹博伟;刘挺;;基于人工标注的个性化检索系统评测的研究[J];中文信息学报;2009年02期
3 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的搜索引擎用户行为分析[J];中文信息学报;2007年01期
4 苏冲;陈清才;王晓龙;孟宪军;;基于最大频繁项集的搜索引擎查询结果聚类算法[J];中文信息学报;2010年02期
5 刘玲;;搜索引擎系统的研究与实现[J];科学之友(B版);2007年02期
6 滕伟,王永成;智能代理技术在搜索引擎中的应用[J];高技术通讯;2001年10期
7 任洪平;;可视化信息检索研究[J];魅力中国;2008年26期
8 许嘉璐;朱小健;;中文信息处理研究工作的新进展[J];云南师范大学学报(哲学社会科学版);2010年04期
9 吉亮;;个性化搜索引擎的技术发展与应用[J];机械管理开发;2010年05期
10 魏福官;郑孝安;;一种基于知识的书面汉语自动分词方法[J];现代电力;1993年04期
相关会议论文 前10条
1 李斌;卢俊之;章成志;陈小荷;;基于聚类引擎的话题褒贬度计算[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 张乃岳;张学燕;;基于个体词语相似度的定制化动态信息检索[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 宋兰;孙茂松;;中文文本全文查重的实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 刘汇丹;芮建武;吴健;;藏文网页的编码识别与转换[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
5 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
7 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
8 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
9 李贺华;付鹤岗;;多Agent Web信息检索应用研究[A];2008年计算机应用技术交流会论文集[C];2008年
10 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
相关重要报纸文章 前10条
1 EndTo;优化Meta讨好搜索引擎[N];电脑报;2009年
2 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
3 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
4 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
5 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
6 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
7 李一鑫;搜索排名的红与黑[N];财经时报;2007年
8 本报记者 赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙t;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
相关博士学位论文 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 朱明杰;互联网搜索系统中的高性能查询问题研究[D];中国科学技术大学;2009年
6 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
7 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
8 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
相关硕士学位论文 前10条
1 司卫国;基于移动Agent的Web信息检索系统的研究[D];西安电子科技大学;2005年
2 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
3 王倩;基于概念格的个性化搜索引擎查询扩展研究[D];北京邮电大学;2008年
4 陈瑶;基于移动Agent的Web信息检索系统的研究[D];武汉理工大学;2007年
5 孔祥凤;企业网搜索引擎的设计与实现[D];辽宁科技大学;2007年
6 韩亮;基于本体的消防信息检索系统的研究[D];大连海事大学;2008年
7 杨献峰;搜索引擎个性化检索技术的研究[D];中国石油大学;2007年
8 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
9 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
10 黄大鹏;基于语义Web的搜索引擎研究[D];西安理工大学;2004年
,本文编号:2470068
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2470068.html