一种新的词语权重计算方法
[Abstract]:Word weight calculation is an important problem in natural language processing and an important means of document semantic representation. The weight of words is mainly determined by two parts, one is the measurement of the importance of words in the document, the other is the measure of words' ability to distinguish different documents, that is, the global weight of words, which is based on the statistical method. This paper analyzes and compares several existing global weight calculation methods for words with relative stability, and proposes a new method for calculating global weight of words combined. Experiments show that the proposed new method can effectively improve the performance of the system.
【作者单位】: 哈尔滨工业大学计算机科学与技术学院;
【基金】:哈尔滨工业大学科研创新基金(HIT.NSRIF.2010045)
【分类号】:H087
【参考文献】
相关期刊论文 前1条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
【共引文献】
相关期刊论文 前10条
1 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
2 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
3 程泽凯,陆小艺;文本分类中的特征选择方法[J];安徽工业大学学报(自然科学版);2004年03期
4 鲁明羽,张红,付克明,陆玉昌;Web ME——一个大型网络挖掘环境系统[J];哈尔滨工业大学学报;2004年09期
5 刘涛,吴功宜,陈正;一种高效的用于文本聚类的无监督特征选择算法[J];计算机研究与发展;2005年03期
6 尚文倩;黄厚宽;刘玉玲;林永民;瞿有利;董红斌;;文本分类中基于基尼指数的特征选择算法研究[J];计算机研究与发展;2006年10期
7 石志伟,刘涛,吴功宜;一种快速高效的文本分类方法[J];计算机工程与应用;2005年29期
8 李国臣,段建勇;基于语法语义信息量化模型的语素字再分类[J];计算机工程;2004年11期
9 杨广翔,俞宁,谌莉;搜索引擎结果的重排序方法[J];计算机应用;2005年02期
10 董小国;甘立国;;基于句子重要度的特征项权重计算方法[J];计算机与数字工程;2006年08期
相关会议论文 前1条
1 赵燕平;李超;;网络安全信息挖掘中的特征选择与专利分析研究[A];2004年中国管理科学学术会议论文集[C];2004年
相关博士学位论文 前6条
1 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
2 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
3 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
4 席运江;组织知识的网络表示模型及分析方法[D];大连理工大学;2007年
5 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
6 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
相关硕士学位论文 前10条
1 王明燕;基于WEB页面的关键词与关键概念提取技术[D];北京工业大学;2003年
2 胡蓉;中文Web文档倾向性自动分类研究[D];四川大学;2003年
3 翟静;可扩展的文本分类系统的核心API的设计与实现[D];四川大学;2003年
4 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
5 段建勇;现代汉语词性细分类标注研究[D];山西大学;2004年
6 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
7 吴福英;面向用户的信息过滤研究与实现[D];江西师范大学;2004年
8 万中英;基于投影寻踪中文网页自动分类[D];江西师范大学;2004年
9 吴艳玲;基于SVM的网页分类器的研究[D];吉林大学;2004年
10 吴娟;军用信息自动分类的研究与实现[D];南京理工大学;2004年
【相似文献】
相关会议论文 前1条
1 丁政建;张路;;基于本体的语义检索研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
相关重要报纸文章 前10条
1 ;整合信息资源 提升服务能力[N];中国计算机报;2005年
2 记者 刘安;“全国档案报刊文献及科技成果信息检索系统”通过鉴定[N];中国档案报;2002年
3 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
4 本报记者 武天敏邋包国俊 本报特约记者 郭瑞宏;在浩瀚信息海洋“导航”[N];解放军报;2007年
5 徐莲芝;24团 农企联手打造无公害农产品基地[N];农民日报;2008年
6 李立红;承钢持续推进多项信息化建设与应用[N];中国冶金报;2008年
7 王伟 史忠植;通用与专业[N];计算机世界;2006年
8 张建华;淄博局企业备案实现100%[N];中国国门时报;2008年
9 通讯员 陈班雄 邹俊 本报记者 于莘明;通向科技巅峰的无名台阶[N];科技日报;2009年
10 叶静;站内检索力助网站信息整合[N];人民邮电;2001年
相关博士学位论文 前1条
1 龙柏;并行计算平台上的数据索引技术研究[D];中国科学技术大学;2011年
相关硕士学位论文 前10条
1 岳俊英;蒙古文信息检索系统中检索单元选取方法的研究[D];内蒙古大学;2011年
2 胡朝义;索引构建与搜索算法的研究与实现[D];电子科技大学;2011年
3 辛强;基于共现距离与查询扩展的蒙古文信息检索系统[D];内蒙古大学;2011年
4 孙红雨;基于本体的医学信息获取技术研究[D];山东科技大学;2008年
5 高敏;基于本体的语义查询扩展研究[D];山东科技大学;2008年
6 董锦霞;基于菱形思维的概念检索模型研究[D];大连理工大学;2011年
7 周新;情境感知的物联网信息检索技术研究[D];大连海事大学;2011年
8 王芳芳;基于Agent的网络信息检索[D];沈阳工业大学;2011年
9 范先爽;基于个性化服务的汽车信息搜索引擎的研究[D];武汉理工大学;2011年
10 任豪栋;基于Web日志挖掘的原型系统研究与实现[D];西华大学;2011年
,本文编号:2326856
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/2326856.html