当前位置:主页 > 科技论文 > 搜索引擎论文 >

个性化搜索引擎中网页特征描述的研究

发布时间:2018-06-14 10:16

  本文选题:个性化搜索 + 网页特征 ; 参考:《计算机工程与应用》2011年11期


【摘要】:为了对用户访问过并感兴趣的网页进行准确描述,分析了对网页特征描述中涉及到的特征抽取范围以及特征词权重计算方法。根据"主题相关词非线性加权的方法"提出了一种改进特征词权重计算的方法,该方法不仅考虑了出现在标题中的特征词的重要性,而且利用非线性函数对特征词出现频率的处理思想,使得权重的计算更加准确。使用改进的特征权重计算方法提高了网页特征描述的准确性,从而提高了用户个性化搜索的效率。
[Abstract]:In order to accurately describe the web pages that the users have visited and are interested in, the range of feature extraction involved in the description of web features and the method of calculating the weight of feature words are analyzed. According to the "method of nonlinear weighting of Topic-Related words", an improved method for calculating the weight of feature words is proposed. This method not only considers the importance of feature words appearing in the title, Moreover, the nonlinear function is used to deal with the frequency of feature words, which makes the calculation of weights more accurate. The accuracy of web page feature description is improved by using the improved feature weight calculation method, and the efficiency of user personalized search is improved.
【作者单位】: 盐城工学院信息工程学院;江苏大学计算机科学与通信学院;
【分类号】:TP393.092

【参考文献】

相关期刊论文 前9条

1 丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期

2 侯汉清,薛鹏军;基于知识库的网页自动标引和自动分类系统的设计[J];大学图书馆学报;2004年01期

3 景丽萍,黄厚宽,石洪波;用于文本挖掘的特征选择方法TFIDF及其改进[J];广西师范大学学报(自然科学版);2003年01期

4 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期

5 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期

6 赵云志;统计分析法自动标引的改进[J];情报学报;2000年04期

7 韩客松,王永成;一种用于主题提取的非线性加权方法[J];情报学报;2000年06期

8 王术,付关友,朱征宇;面向个性化服务的网页特征描述[J];计算机工程与设计;2005年03期

9 袁薇;高淼;;搜索引擎系统中个性化机制的研究[J];微电子学与计算机;2006年02期

相关硕士学位论文 前1条

1 刘妮娜;Web数据挖掘和个性化搜索引擎研究[D];浙江大学;2005年

【共引文献】

相关期刊论文 前10条

1 李玉擰;周兰珍;操卫平;;基于DF和CHI的联合特征提取方法及其应用[J];北京工业大学学报;2008年09期

2 宋涛;施水才;房祥;吕学强;;基于改进的潜在语义分析的文本聚类[J];北京信息科技大学学报(自然科学版);2012年03期

3 王凯;文献分类工作的现状与发展[J];国家图书馆学刊;2005年04期

4 杨勇涛;;文本自动摘要提取算法[J];成都大学学报(自然科学版);2009年02期

5 袁晓峰;;一种基于主题的Web文本聚类算法[J];成都大学学报(自然科学版);2010年03期

6 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期

7 吕佳;;基于改进分类模型的文本分类系统实现[J];重庆师范大学学报(自然科学版);2009年02期

8 李家兵;;基于交叉覆盖算法的文本分类研究[J];滁州学院学报;2008年05期

9 陈子昕;;基于SVM的文本分类系统设计与实现[J];东莞理工学院学报;2008年03期

10 李艳玲;戴冠中;覃森;;快速的文本倾向性分类方法(英文)[J];电子科技大学学报;2007年06期

相关会议论文 前10条

1 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年

2 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年

4 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年

5 曹玉娟;牛振东;彭学平;江鹏;;一个基于特征向量的近似网页去重算法[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年

6 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年

7 卢卫雄;;一种基于支持向量机的多国语言文本分类平台[A];第十六届全国青年通信学术会议论文集(上)[C];2011年

8 门洪;武玉杰;李小英;高艳春;;基于支持向量机的分类算法研究[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年

9 郎加云;胡学钢;;电子邮件内容过滤的相关特征研究[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

10 王秀娟;郑康锋;杨星海;;线性鉴别分析在中文文本分类中的应用[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年

相关博士学位论文 前10条

1 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年

2 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年

3 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年

4 王兰成;基于XMARC信息描述的知识标引与概念检索研究[D];东华大学;2004年

5 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年

6 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年

7 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年

8 万国根;面向内容的网络安全监控模型及其关键技术研究[D];电子科技大学;2005年

9 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年

10 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年

相关硕士学位论文 前10条

1 岳海鸥;基于Ajax和Soap Service的应用框架及实现方法研究[D];山东科技大学;2010年

2 何昌钦;图像检索方法研究[D];大连理工大学;2010年

3 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年

4 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年

5 姜伦;模糊聚类算法及其在中文文本聚类中的研究与实现[D];哈尔滨理工大学;2010年

6 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年

7 周志辉;基于用户兴趣模型的个性化搜索引擎研究与分析[D];江西理工大学;2010年

8 韩露;领域知识对领域问答系统答案抽取影响研究[D];昆明理工大学;2008年

9 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年

10 张元虹;基于主题划分的中文单文档自动文摘系统的研究[D];昆明理工大学;2009年

【二级参考文献】

相关期刊论文 前10条

1 孙铁利,杨凤芹;根据用户隐式反馈建立和更新用户兴趣模型[J];东北师大学报(自然科学版);2003年03期

2 丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期

3 鲁松,白硕,黄雄,张健;基于向量空间模型的有导词义消歧[J];计算机研究与发展;2001年06期

4 朱寰,阮彤,于庆喜;文本分割算法对中文信息过滤影响研究[J];计算机工程与应用;2002年13期

5 廖明宏;本体论与信息检索[J];计算机工程;2000年02期

6 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期

7 刘开瑛,薛翠芳,郑家恒,周晓强;中文文本中抽取特征信息的区域与技术[J];中文信息学报;1998年02期

8 何新贵,彭甫阳;中文文本的关键词自动抽取和模糊分类[J];中文信息学报;1999年01期

9 仲云云,侯汉清,薛鹏军;网页自动标引方案的优选及标引性能的测评[J];情报科学;2002年10期

10 康耀红;几种文献自动标引方法的讨论[J];情报理论与实践;1988年03期

相关硕士学位论文 前1条

1 薛鹏军;基于知识库的中文网络检索工具——经济信息智能搜索引擎研究[D];南京农业大学;2001年

【相似文献】

相关期刊论文 前10条

1 侯润峰;潘艳;司志刚;常朝稳;;公安情报信息系统中的文本特征表示[J];计算机与信息技术;2007年03期

2 周彩兰;王鹏;;基于空间向量模型的用户建模算法改进[J];计算机与数字工程;2010年02期

3 陈笑筑;王东;陈笑蓉;;基于页面标签的网页分类研究[J];商场现代化;2009年19期

4 何中市;刘里;;基于上下文关系的文本分类特征描述方法[J];计算机科学;2007年05期

5 蒋宗礼;徐学可;李帅;;文本分类中基于词条聚合的特征抽取[J];哈尔滨工程大学学报;2008年11期

6 薛翠芳,郭炳炎;汉语文本特征词的抽取方法[J];情报学报;2000年03期

7 廖浩;李志蜀;王秋野;张意;;基于词语关联的文本特征词提取方法[J];计算机应用;2007年12期

8 卢志翔;蒙丽莉;;文本分类中特征项权重算法的改进[J];柳州师专学报;2011年04期

9 孙巍;;一种基于复合文本描述的科学数据特征表示方法[J];现代图书情报技术;2009年05期

10 张清军,朱才连;基于统计的中文文本主题自动提取研究[J];四川大学学报(工程科学版);2004年03期

相关会议论文 前10条

1 王萌;王晓荣;李春贵;唐培和;;基于局部与全局信息的自动文摘算法[A];广西计算机学会2007年年会论文集[C];2007年

2 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年

3 胡玉娴;;基于《知网》和遗传算法的中文文本聚类特征选择[A];2009全国计算机网络与通信学术会议论文集[C];2009年

4 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年

5 王健;安波;林鸿飞;;基于修正网络的蛋白质络合物预测[A];第五届全国信息检索学术会议论文集[C];2009年

6 刘华;张普;;面向词典编纂的词汇聚类研究[A];2004年辞书与数字化研讨会论文集[C];2004年

7 吴晓;李丹宁;林洁;冀肖榆;李丹;;个性化搜索引擎中用户兴趣模型的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

8 赵纪元;罗霄;;面向中图法的学术文献自动分类研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

9 王玮;张玉芝;;满足一致性条件的最小修正判断矩阵方法研究[A];2005中国控制与决策学术年会论文集(下)[C];2005年

10 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

相关重要报纸文章 前10条

1 本报记者 胡珉琦;论文反抄袭软件被“攻克”[N];北京科技报;2011年

2 通讯员 彭云 袁龙刚;袁仁国荣膺改革开放30年酒界领军人物[N];经理日报;2009年

3 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年

4 俞扬;“洪武赶散”与泰州方言[N];泰州日报;2006年

5 记者 万宁;业绩增长仍是主流[N];中国证券报;2005年

6 朱莉;互联网应用你知道多少?[N];中国电脑教育报;2006年

7 林俊铭;漳州地名用字解析[N];闽南日报;2008年

8 云南 张康宗;安全至上[N];电脑报;2003年

9 周小荣;一堂生动的语文课[N];中国电脑教育报;2003年

10 李倩;多种价格国债招标方式有望推出[N];金融时报;2004年

相关博士学位论文 前10条

1 温昌衍;客家方言特征词研究[D];暨南大学;2001年

2 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年

3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年

4 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年

5 曹廷玉;赣方言特征词研究[D];暨南大学;2001年

6 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年

7 符其武;琼北闽语词汇研究[D];厦门大学;2007年

8 臧铖;个性化搜索中隐私保护的关键问题研究[D];浙江大学;2008年

9 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年

10 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年

相关硕士学位论文 前10条

1 赵彦军;基于词条数学期望的词条权重计算算法研究[D];安徽工业大学;2010年

2 孙群虎;基于空间分布和信息熵的特征词提取方法[D];大连理工大学;2010年

3 王术;面向个性化服务的网页特征描述方法研究[D];重庆大学;2004年

4 李媛媛;基于潜在语义索引的中文文本检索研究[D];西南交通大学;2008年

5 邱培超;基于特征的观点挖掘中的若干关键问题研究[D];复旦大学;2011年

6 黄菲菲;半监督层次协同文本聚类研究[D];西南交通大学;2012年

7 关庆珍;基于本体的个性化信息搜索的用户模型研究[D];西南大学;2008年

8 胡升泽;个性化元搜索引擎若干关键技术研究[D];国防科学技术大学;2008年

9 蔡坤;基于特征词的文本聚类算法研究[D];河南大学;2009年

10 蒋磊;面向产品评论的意见挖掘关键技术研究[D];哈尔滨工业大学;2010年



本文编号:2017045

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2017045.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dc4c9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com