基于WEB页面的关键词与关键概念提取技术
本文关键词:智能搜索引擎中的同义词识别算法研究,由笔耕文化传播整理发布。
《北京工业大学》 2003年
基于WEB页面的关键词与关键概念提取技术
王明燕
【摘要】: 关键词技术是文本信息处理的一项重要技术。目前,由于计算机在自然语言理解方面还有很大的不足,关键词提取是在进行文本自动摘要、文本自动分类、主题词提取、主题提取等凡是涉及到文本信息理解的工作时,都要应用到的一项关键技术。 本论文详细介绍了一种基于Web页面的关键词与关键概念提取技术及其实验系统的设计与实现,并对该技术在搜索引擎中的应用进行了探讨。论文的核心内容包含以下三部分: 首先,关键词提取系统介绍。围绕着Web页面的特殊性开始,依据Web页面不同于一般文本的特殊性,介绍了一种基于Web页面的关键词提取技术。该技术的实现充分利用了Web页面中的各种标记。 然后,关键概念提取系统介绍。语言是一种不断发展的文化,新概念层出不穷,同时还存在很多人名、地名、机构名等专有名词。这些概念的存在影响了关键词的提取质量。从常用的N元语法入手,,分析该方法存在的问题——N元截断效应,提出了一种基于上下文和互信息的关键概念提取方法。该方法的实现克服了N元算法的截断效应,实现了可变长的概念提取方法。同时,本文又结合规则选词的方法,对提取结果进行了优化,取得较好的实验效果。 最后,论文对该技术在搜索引擎中的应用在理论进行了简单的探讨。通过对搜索引擎中“相关性(系统角度的相关性与用户角度的相关性)”问题的分析,提出了一种改进的系统角度的“相关性”模型,并对该模型的系统实现进行了构想与设计。
【关键词】:
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:TP393.092
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【相似文献】
中国期刊全文数据库 前10条
1 曹玉娟;牛振东;赵堃;彭学平;;基于概念和语义网络的近似网页检测算法[J];软件学报;2011年08期
2 卢转华;;概念图的网络导航分析[J];牡丹江教育学院学报;2011年04期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 ;关于摘要和关键词的说明[A];中国人民解放军医学会第九届放射诊疗专业学会论文集[C];2005年
2 李玉亭;温智虹;姜莹;;重视科技论文摘要的撰写 提高关键词的准确性[A];中国地震学会第十次学术大会论文摘要专集[C];2004年
3 ;规范关键词选择的决定(试行)[A];薄膜技术学术研讨会论文集[C];2003年
4 ;化学与社会论坛[A];中国化学会第二十四届学术年会论文摘要集[C];2004年
5 ;生命科学中的分析化学[A];中国化学会第二十四届学术年会论文摘要集[C];2004年
6 ;化学生物学[A];中国化学会第二十四届学术年会论文摘要集[C];2004年
7 ;化学信息学[A];中国化学会第二十四届学术年会论文摘要集[C];2004年
8 陈儒;张宇;刘挺;;面向网络实时数据流的中文信息多模式模糊匹配[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
9 ;理论化学、计算与模拟化学[A];中国化学会第二十四届学术年会论文摘要集[C];2004年
10 张建方;;试验设计中五个关键词的翻译问题[A];中国现场统计研究会第12届学术年会论文集[C];2005年
中国重要报纸全文数据库 前10条
1 本报记者 何飞;[N];政府采购信息报;2005年
2 记者 毛绍清;[N];西南电力报;2005年
3 ;[N];电脑报;2005年
4 伟成;[N];中国乡镇企业报;2005年
5 ;[N];中国企业报;2005年
6 陈磊 张显峰 李丽云;[N];科技日报;2005年
7 记者 周哲 谢季宏;[N];重庆商报;2005年
8 本报记者 侯晓轩;[N];计算机世界;2005年
9 本报记者 刘猛;[N];证券时报;2000年
10 中国光大银行 林虹;[N];中国证券报;2004年
中国博士学位论文全文数据库 前10条
1 洪国彬;基于随机Petri网的企业业务流程重组的理论与优化方法研究[D];天津大学;2003年
2 卫军英;整合营销传播观念及其理论构架[D];浙江大学;2005年
3 卫军英;整合营销传播观念的理论建构[D];浙江大学;2007年
4 方攀峰;爪蟾肌肉发生过程中xTbx6 基因的功能和相应的上下游分子机制的研究[D];中国科学院研究生院(上海生命科学研究院);2004年
5 张艳梅;海派市民小说与现代伦理叙事[D];东北师范大学;2004年
6 黄汉平;拉康与后现代文化批评[D];暨南大学;2004年
7 李思捷;身份书写与跨文化心态透视[D];暨南大学;2003年
8 邹西峰;骨髓源干细胞在损伤脑组织中迁移和分化的研究[D];第一军医大学;2004年
9 金建军;血管内皮生长因子在膀胱肿瘤血、尿中的表达和反义基因治疗的研究[D];复旦大学;2003年
10 张大江;经导管肝动脉热碘油栓塞治疗原发性肝癌机理研究[D];复旦大学;2003年
中国硕士学位论文全文数据库 前10条
1 王明燕;基于WEB页面的关键词与关键概念提取技术[D];北京工业大学;2003年
2 陈伟雄;基于元搜索的中文搜索引擎研究与实现[D];清华大学;2004年
3 何均洪;[D];电子科技大学;2004年
4 郭丽娜;俄语广告语的民族文化特性研究[D];华中师范大学;2007年
5 何念慈;Internet上的教学资源搜索系统的研究与实现[D];暨南大学;2000年
6 王锋;《古诗十九首》的言“情”艺术[D];西北大学;2000年
7 徐艳英;科研论文英文文摘及其写作[D];长春理工大学;2004年
8 朱毅华;智能搜索引擎中的同义词识别算法研究[D];南京农业大学;2001年
9 陈威;生脉注射液对血流动力学及血管因子影响作用的研究[D];军医进修学院;2001年
10 袁莉;1925年:关于鲁迅的四个关键词[D];西南师范大学;2003年
本文关键词:智能搜索引擎中的同义词识别算法研究,由笔耕文化传播整理发布。
本文编号:214411
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/214411.html