在未分类英文文档集中挖掘相关词的方法
本文选题:数据挖掘 + 网页分类 ; 参考:《计算机工程与应用》2009年05期
【摘要】:在搜索引擎结果相关性判断、文字语音转换与识别等领域中,如何准确地分析单词之间的搭配关系是主要研究问题之一。利用互联网中的海量信息,在对大量英文网页进行统计分析的基础上,利用单词的出现频率和单词对的共现频率归纳总结出了未分类互联网页面中单词相关程度判定的经验性结论,提出了一种基于文档集统计分析的单词相关程度排序方法和计算公式,并根据该方法实现了分布式的英文单词相关性挖掘系统的原型。
[Abstract]:How to accurately analyze the collocation relationship between words is one of the main research problems in the fields of search engine result correlation judgment, text and speech conversion and recognition. On the basis of the statistical analysis of a large number of English web pages, based on the vast amount of information in the Internet, By using the frequency of word occurrence and co-occurrence of word pairs, the empirical conclusions of determining the correlation degree of words in unclassified Internet pages are summarized. Based on the statistical analysis of document sets, a method of word correlation ranking and its formula are proposed. According to this method, the prototype of a distributed English word correlation mining system is implemented.
【作者单位】: 北京工业大学计算机学院;
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 王艳;;数据隐私保护技术综述[J];知识经济;2011年14期
2 杜垒;王飞;;数据挖掘在学生管理中的应用[J];科技信息;2011年18期
3 李想;;PLE编码在关联数据挖掘中的应用[J];电脑知识与技术;2011年15期
4 张博;张超伟;;中药方剂数据挖掘中的数据预处理研究[J];电脑知识与技术;2011年17期
5 杜英;;关联规则挖掘研究[J];知识经济;2011年14期
6 李炳燃;张金哲;;数据挖掘在设备故障诊断专家系统知识获取中的应用[J];科技信息;2011年20期
7 李丹实;;使用SQL Server2005构建数据挖掘应用程序[J];煤炭技术;2011年07期
8 张红艳;都娟;;关联规则中Apriori算法的应用[J];数字技术与应用;2011年08期
9 吴旭东;柳炳祥;;聚类分析在高校图书馆管理中的应用[J];电脑开发与应用;2011年09期
10 吕鸣剑;;数据挖掘在知识工程中的应用研究[J];电脑知识与技术;2011年23期
相关会议论文 前10条
1 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
2 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
3 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
4 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
5 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
6 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
7 周红梅;薛青;;数据挖掘技术及其在装备作战仿真系统中的应用[A];第五届全国仿真器学术会论文集[C];2004年
8 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
9 曹波伟;薛青;郑长伟;于屏岗;陈辰;;基于数据挖掘的装备维修管理智能分析模型研究[A];'2010系统仿真技术及其应用学术会议论文集[C];2010年
10 于波;王宏鼎;唐世渭;童云海;;基于数据挖掘的数据质量分析研究[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
相关重要报纸文章 前10条
1 吴勇毅;软件选型:数据挖掘是重点[N];中国冶金报;2009年
2 刘光强;靠数据挖掘抓住客户的心[N];中国计算机报;2009年
3 ;数据挖掘:如何挖出效益?[N];中国计算机报;2004年
4 ;数据挖掘流程[N];人民邮电;2001年
5 赵纪元;数据挖掘在CRM中的应用[N];人民邮电;2001年
6 本报特约撰稿 许丽萍;数据挖掘:软件应用的新境界[N];计算机世界;2009年
7 北京联通宽带业务中心 杨雪艳;数据挖掘成挽留客户利器[N];通信产业报;2009年
8 本报记者 吴玉征;中国数据挖掘市场被重视[N];计算机世界;2010年
9 张立明;数据挖掘之道[N];网络世界;2003年
10 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
相关博士学位论文 前10条
1 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
2 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
3 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
4 佘春东;数据挖掘算法分析及其并行模式研究[D];电子科技大学;2004年
5 宋杰;生物信息数据挖掘中的若干方法及其应用研究[D];大连理工大学;2005年
6 林晓勇;频繁模式挖掘和动态维护的理论与方法研究[D];北京化工大学;2008年
7 赖邦传;数据驱动的综合智能决策支持系统及其生成器的研究与开发[D];中南大学;2005年
8 王曙燕;医学图像智能分类算法研究[D];西北大学;2006年
9 金阳;基于概念格模型的序列模式挖掘算法研究[D];吉林大学;2007年
10 许兆新;基于元知识的数据挖掘系统研究[D];哈尔滨工程大学;2003年
相关硕士学位论文 前10条
1 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
2 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
3 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
4 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
5 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年
6 王浩;数据挖掘在上海市职业能力考试院招录考试优化管理项目中的运用研究[D];华东理工大学;2012年
7 黎卫英;数据挖掘在中职幼教课程改革中的应用[D];福建师范大学;2009年
8 张煜辉;数据挖掘和SPC在生产过程质量控制中应用研究[D];上海交通大学;2009年
9 刘华敏;数据挖掘在高职院校学生成绩分析中的应用[D];安徽大学;2011年
10 李森;基于数据挖掘的旅游电子商务系统研究与实现[D];电子科技大学;2011年
,本文编号:1865700
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1865700.html