当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于概率潜在语义分析的Blog个性化查询扩展研究

发布时间:2017-10-30 23:03

  本文关键词:基于概率潜在语义分析的Blog个性化查询扩展研究


  更多相关文章: 概率潜在语义分析 博客 查询扩展 向量空间模型 潜在语义分析


【摘要】:随着Web2.0技术的日益成熟和Blog技术的发展,Blog页面的数量呈指数级上升,只靠基于关键字匹配的Blog搜索引擎已满足不了用户的需要。传统Blog搜索引擎的搜索效率达不到用户个性化要求,受概率潜在语义分析技术研究的启发,将概率潜在语义分析模型用于Blog日志查询,根据用户的兴趣和个性化特点进行检索,返回与用户需求相关的查询结果。实验结果表明,相对于传统的向量空间模型和潜在语义分析模型,基于概率潜在语义分析模型的Blog日志查询在平均精度和召回率上得到了显著提高。
【作者单位】: 宿州学院信息工程学院;
【关键词】概率潜在语义分析 博客 查询扩展 向量空间模型 潜在语义分析
【基金】:安徽省高等学校优秀青年人才基金项目(2010SQRL192,2011SQRL157) 安徽省教育厅自然科学研究一般项目(KJ2013B283) 宿州学院2012年度国家级大学生创新创业训练计划项目(201210379004,201210379003)
【分类号】:TP391.1
【正文快照】: 0引言近年来,国内外出现了很多顶级的Blog搜索引擎,Google博客搜索和百度博客搜索是两个典型的中文Blog搜索引擎。大部分Blog搜索引擎的工作原理都是沿用传统的搜索引擎技术,其查准率和查全率总是不能让人满意。Blog上绝大多数的信息以文本形式存在,传统的基于关键词字符匹配

【参考文献】

中国期刊全文数据库 前6条

1 王奕;;基于概率潜在语义分析的中文文本分类研究[J];甘肃联合大学学报(自然科学版);2011年04期

2 俞辉;景海峰;;基于概率潜在语义分析的Web用户聚类[J];计算机工程与应用;2008年23期

3 罗景;涂新辉;;基于概率潜在语义分析的中文信息检索[J];计算机工程;2008年02期

4 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期

5 苗家;马军;陈竹敏;;一种基于HITS算法的Blog文摘方法[J];中文信息学报;2011年01期

6 唐明伟;卞艺杰;陶飞飞;;基于语义向量空间模型的文档检索系统研究[J];情报杂志;2010年05期

中国硕士学位论文全文数据库 前1条

1 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年

【共引文献】

中国期刊全文数据库 前10条

1 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期

2 杨尔弘;;媒体5年词语使用情况调查分析[J];北华大学学报(社会科学版);2011年04期

3 刘文华;康海燕;;领域问答系统生成器的研究[J];北京信息科技大学学报(自然科学版);2009年03期

4 田占霄;韩宪忠;王克俭;;一种改进的长词优先逆向最大匹配分词消歧策略[J];河北农业大学学报;2009年04期

5 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期

6 朱维彬;;语音合成中的语言学计算模型:现状及展望[J];当代语言学;2009年02期

7 吴佩韦;李昌华;;一种基于Lucene的搜索推荐词生成方法[J];电脑知识与技术;2009年10期

8 明小娜;龙毅;钱程扬;张翎;;基于受限自然语言的GIS命令解析方法[J];地球信息科学学报;2009年02期

9 杨震;夏艳;陈晓勤;;适合话音服务平台的结构化小文本搜索引擎的研究[J];电信科学;2011年12期

10 朱聪慧;赵铁军;郑德权;;基于无向图序列标注模型的中文分词词性标注一体化系统[J];电子与信息学报;2010年03期

中国重要会议论文全文数据库 前10条

1 李金;宋阳;梁洪;;语言残障患者医疗辅助系统设计[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年

2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

4 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

5 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年

6 郑亚斌;曹嘉伟;刘知远;;基于最大匹配和马尔科夫模型的对联系统[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

7 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

8 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

9 丁大斌;黄昌宁;;汉语同音词调查及拼音输入法基线模型研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

10 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年

中国博士学位论文全文数据库 前10条

1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年

2 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年

3 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年

4 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年

5 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年

6 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年

7 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年

8 车海燕;面向中文自然语言Web文档的自动知识抽取和知识融合[D];吉林大学;2008年

9 张格伟;基于工艺知识网格的可重构CAPP系统关键技术研究[D];南京航空航天大学;2008年

10 胡东滨;决策问题管理系统及其开发组件研究[D];中南大学;2008年

中国硕士学位论文全文数据库 前10条

1 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年

2 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年

3 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年

4 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年

5 苏保君;在线组合分类器应用于大规模垃圾邮件过滤的研究[D];浙江大学;2010年

6 马静;基于web的数字化资源全文检索系统的设计与实现[D];西安电子科技大学;2010年

7 刘照然;远程教育中智能答疑系统的研究与实现[D];西安电子科技大学;2010年

8 兰冲;基于统计规则的中文分词研究[D];西安电子科技大学;2011年

9 席敏;基于单汉字索引的全文检索系统的研究与实现[D];西安电子科技大学;2010年

10 吴代文;基于Lucene的二次全文检索系统设计与实现[D];西安电子科技大学;2009年

【二级参考文献】

中国期刊全文数据库 前10条

1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期

2 王修力;马利平;;文本信息检索的代数模型综述[J];吉林大学学报(信息科学版);2007年05期

3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期

4 费爱蓉,穆斌,蒋建国;基于本体的XML数据集成及映射关系的研究[J];合肥工业大学学报(自然科学版);2004年08期

5 程莉,卢正鼎,文坤梅,李娟;基于语义的模糊匹配探索与应用[J];华中科技大学学报(自然科学版);2003年02期

6 王实,高文,李锦涛,谢辉;路径聚类:在Web站点中的知识发现[J];计算机研究与发展;2001年04期

7 林鸿飞;基于示例的文本标题分类机制[J];计算机研究与发展;2001年09期

8 徐德智;王怀民;;基于本体的概念间语义相似度计算方法研究[J];计算机工程与应用;2007年08期

9 盖杰,王怡,武港山;基于潜在语义分析的信息检索[J];计算机工程;2004年02期

10 宋枫溪,高林;文本分类器性能评估指标[J];计算机工程;2004年13期

中国博士学位论文全文数据库 前3条

1 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年

2 王树梅;信息检索相关技术研究[D];南京理工大学;2007年

3 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年

中国硕士学位论文全文数据库 前2条

1 许林杰;中文文本分词研究[D];山东师范大学;2003年

2 翟琳琳;基于潜在语义分析的智能检索系统[D];上海师范大学;2007年

【相似文献】

中国期刊全文数据库 前10条

1 何海江;凌云;;由向量空间相关模型识别博客文章的垃圾评论[J];长沙大学学报;2008年02期

2 何海江;凌云;;由Logistic回归识别Web社区的垃圾评论[J];计算机工程与应用;2009年23期

3 岳文;陈治平;林亚平;;基于查询扩展和分类的信息检索算法[J];系统仿真学报;2006年07期

4 熊桂喜;王开锋;;基于语义的查询扩展研究[J];微计算机信息;2008年30期

5 陈晓金;王兵;;信息检索扩展技术研究[J];图书情报工作;2008年12期

6 严华云;刘其平;肖良军;;信息检索中的相关反馈技术综述[J];计算机应用研究;2009年01期

7 谭义红;李学勇;陈治平;;关联规则挖掘在Web信息检索中的应用[J];计算机工程;2006年09期

8 谭义红;王鑫;周铁军;;基于概念检索的中文搜索引擎的设计与实现[J];计算机应用与软件;2006年05期

9 黄名选;严小卫;;基于查询语义树的语义查询扩展研究[J];情报理论与实践;2007年06期

10 黄名选;陈燕红;张师超;;基于关联规则挖掘的查询扩展模型研究[J];现代图书情报技术;2007年10期

中国重要会议论文全文数据库 前10条

1 廖祥文;曹冬林;方滨兴;许洪波;程学旗;;基于概率推理模型的博客倾向性检索研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

2 黄春燕;;博客写作让网络作文如虎添翼[A];国家教师科研基金十一五阶段性成果集(广西卷)[C];2010年

3 姜洪伟;;博客写作的类型与文体特征探析[A];生命、知识与文明:上海市社会科学界第七届学术年会文集(2009年度)哲学·历史·文学学科卷[C];2009年

4 彭兰;;微博客对网络新闻传播格局与模式的冲击[A];新闻学论集(第24辑)[C];2010年

5 王斌;严敏婵;陈晖;朱忠;;医学临床教育中的博客化教学与管理[A];2007年浙江省医学教育学术年会论文汇编[C];2007年

6 程莉;;博客MSN Spaces使用动机初探[A];北京市社会心理学会2006年学术年会论文摘要集[C];2006年

7 陈丹娥;;《博客人生》选题策划[A];图书选题策划报告——第五届“未来编辑杯”获奖文集[C];2006年

8 陈红梅;;博客使用动机和使用状态研究[A];中国的前沿 文化复兴与秩序重构——上海市社会科学界第四届学术年会青年文集(2006年度)[C];2006年

9 李珍;胡晓檬;;大学生个人博客使用情况及其人格特征分析[A];北京市社会心理学会2007年学术年会论文摘要集[C];2007年

10 潘少聪;;校园博客,师生共同发展的有效平台[A];国家教师科研基金十一五阶段性成果集(广东卷)[C];2010年

中国重要报纸全文数据库 前10条

1 郭桂英;该给博客立“规矩”吗[N];中国改革报;2007年

2 本报记者  李国训;博客盈利:与死亡赛跑[N];财经时报;2006年

3 本报记者 朱侠;“博客”与谁共舞[N];中国新闻出版报;2006年

4 本报记者 黄启艳;“古董街”商家欲集体自救[N];中山日报;2008年

5 郑博超;博客里的检察风景[N];检察日报;2008年

6 记者 丁雷;大连软交会 进入“微博”时代[N];大连日报;2010年

7 本报记者 鲍妍;博客日渐普及将成为带宽“黑洞”?[N];北京科技报;2004年

8 阮帆;前卫博客 倡导放弃自恋[N];北京科技报;2005年

9 本报记者 申林英;义乌走出来的博客“大侠”方兴东[N];证券日报;2005年

10 赵永涛;博客出版:能否产销对路?[N];中国文化报;2005年

中国博士学位论文全文数据库 前10条

1 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年

2 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年

3 王瑞琴;基于语义处理技术的信息检索模型研究[D];浙江大学;2009年

4 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年

5 王树梅;信息检索相关技术研究[D];南京理工大学;2007年

6 钟敏娟;基于检索结果聚类的XML伪反馈技术研究[D];江西财经大学;2012年

7 田萱;基于上下文的信息检索关键技术研究[D];中国人民大学;2007年

8 李思;WEB观点挖掘中关键问题的研究[D];北京邮电大学;2012年

9 左家莉;信息检索中Markov网络图模型研究[D];江西财经大学;2011年

10 邬心云;日志式个人博客的自我呈现心理研究[D];华中科技大学;2012年

中国硕士学位论文全文数据库 前10条

1 高晖吉;基于博文分布特征的博客精选技术研究[D];北京邮电大学;2010年

2 贾淑芳;基于用户日志聚类的查询扩展[D];北京邮电大学;2010年

3 邓冰娜;面向博客的垃圾评论识别方法研究[D];河北大学;2011年

4 刘清江;同义词在文本特征提取与查询扩展中的应用[D];河北大学;2010年

5 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年

6 周剑烽;基于语义本体的信息检索方法的研究[D];杭州电子科技大学;2010年

7 方芳;中文信息检索系统与文档重排技术研究[D];武汉科技大学;2010年

8 杨蓓虹;基于企业协作信息网平台的信息检索系统的设计与实现[D];苏州大学;2005年

9 闭剑婷;潜在语义分析在跨语言信息检索中的应用研究[D];广西大学;2008年

10 贾玉祥;基于概率模型的名人网页相关度评价研究[D];郑州大学;2006年



本文编号:1119681

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1119681.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bb110***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com