当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向化工领域的Web文本搜索与分类

发布时间:2019-08-01 14:35
【摘要】:随着网络信息资源的迅速增加,对于主题Web文本信息的搜索与分类日益成为信息处理领域的一个重要问题。本文建立了一个面向化工领域的Web文本搜索与分类系统,该系统在crawler子系统搜集Web文档的基础上,利用支持向量机对网页进行二次分类,找出化工专业中文网页;然后利用向量空间模型,对分类好的专业网页进行多子类分类。与综合搜索引擎相比,具有速度快、搜索信息准确度高和具备学习能力的特点。
【图文】:

面向化工领域的Web文本搜索与分类


本系统主要由文档搜集子系统、特征提取子系统、检索和分类子系统以及用户界面控制子系统组成。系统结构如图1所示。其中文档搜集子系统完成网页文档的搜集、分析和存储;特征提取子系统完成用户给定示例文档的特征分析和提取;检索和分类子系统对文档搜集子系统收集的文档进行归类工作,分割出用户感兴趣的文档集合;用户界面控制子系统提供用户指定示例文档或者明确指定欲搜取文档的特征,对文档和特征库进行维护管理以及发布检索命令。2.1文档的表示以及特征提取文档的表示是系统设计中重要的基础元素。目前,Web文档的表示主要采用向量空间模型(vsM)[‘〕,即以向量来表示文档。在VSM中,,文本空间被看作是由一组正交词条向量组成的向量空间。假设所有文本的特征总数是n,则构成一个n维的向量空间,其中每一个文本被表示为一个n维的特征向量:
【作者单位】: 陕西科技大学化学与化工学院 北京理工大学计算机科学与工程系 北京理工大学计算机科学与工程系 北京理工大学计算机科学与工程系
【分类号】:TP393.09;TP391.3

【参考文献】

相关期刊论文 前3条

1 黄苏华,李晓霞,郭力,刘宗红,杨章远;基于数据库的Internet化学资源导航信息管理与自动发布[J];计算机与应用化学;2000年03期

2 彭桃芳,邓文生,毋俊生,王利生;基于Web的工程物性数据库查询系统[J];计算机与应用化学;2003年Z1期

3 王华彦,李晓霞,郭力,杨章远;Internet化学资源导航系统中的相关资源链接[J];计算机与应用化学;2003年Z1期

【共引文献】

相关期刊论文 前10条

1 陈刚,邢献然,陈占恒,祝振奇,陈骏;基于网络构建稀土化合物物性数据库[J];北京科技大学学报;2002年03期

2 李晓霞,郭力,杨章远,许志宏;从Internet化学化工资源导航到虚拟社区[J];化工学报;2000年S1期

3 张茂元;邹春燕;卢正鼎;;一种基于变调整学习规则的模糊网页分类方法研究[J];计算机研究与发展;2007年01期

4 刘宗红,李晓霞,郭力,黄苏华,杨章远;基于数据库的Internet化学资源导航系统与用户的交互[J];计算机与应用化学;2000年05期

5 贾红阳,郭力,李晓霞,杨章远,姜林,陈晓青;石油化工信息系统Web权限管理的研究[J];计算机与应用化学;2001年02期

6 李新宇,郭力,李晓霞;ChIN与PHP-Nuke的无缝集成[J];计算机与应用化学;2002年05期

7 李晓霞,郭力,杨宏伟,陈越,李新宇,王华彦,杨章远;ChIN化学化工资源导航系统的新进展[J];计算机与应用化学;2002年Z1期

8 张卫华,徐扬子,李克非;远程化学教育网站的建设与开发[J];计算机与应用化学;2003年05期

9 谢冰;张宏忠;孙雨安;刘应凡;王国庆;;基于B/S构架的化学实验管理系统[J];计算机与应用化学;2006年03期

10 马金娜;田大钢;;基于SVM的中文文本自动分类研究[J];计算机与现代化;2006年08期

相关会议论文 前1条

1 Zhongda Lin, Kun Deng, Yanfen Hong (Department of Computer Science and Technology, Nanchang University, Nanchang 330029, China);Research of Web Pages Categorization[A];Rough集前景——粒计算理论国际论坛(2006)论文集[C];2006年

相关博士学位论文 前10条

1 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年

2 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年

3 周翠松;核酸识体荧光光谱法研究及其关联数据库的构建[D];四川大学;2006年

4 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年

5 田永鸿;基于上下文的统计关系学习研究[D];中国科学院研究生院(计算技术研究所);2005年

6 赵鹏;复杂网络与互联网个性化信息服务的研究[D];中国科学技术大学;2006年

7 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年

8 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年

9 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年

10 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年

相关硕士学位论文 前10条

1 刘志刚;天然药物网络数据库中活性分子3D结构的实现及其构效关系研究[D];四川大学;2002年

2 王吉星;高分子合成与性能预测的计算机模拟[D];河北工业大学;2004年

3 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年

4 彭雅;文本分类算法及其应用研究[D];湖南大学;2004年

5 沈抖;万维网上数据处理方法的研究[D];清华大学;2004年

6 赵志岩;web文档性质分类的研究与应用[D];东北师范大学;2005年

7 程传鹏;基于分类的智能信息检索研究与实现[D];云南师范大学;2005年

8 李畅

本文编号:2521809


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2521809.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3e589***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com