科研项目管理中的文本挖掘方法研究及应用
发布时间:2021-03-13 16:43
在基础研究的科研项目管理中,项目的相似性分析是一个基本的管理问题,依据相似性可以对项目进行分类,避免重复申报、重复立项,还可以为相似项目的评审选择合适的同行专家。项目的相似性分析一般是根据项目建议书的标题、摘要和关键词并结合项目管理人员的经验进行。但是由于一方面项目数量逐年快速增加,另一方面基础研究具有创新性、不确定性、学科交叉融合及新观点、新概念和新的知识点不断涌现等特点,科研项目管理人员很难根据基础研究项目的真正内涵进行相似性分析,从而给管理工作带来了极大的挑战。因此,从项目的知识内涵中进行相似性分析就成为现实的需求,这就需要对项目进行知识挖掘,并从知识管理的角度探讨项目管理问题。 科研项目建议书是由自然语言撰写的文本,特别是我国基础研究的建议书绝大部分是中文文本。因此对项目进行知识挖掘就转变为对项目建议书的文本挖掘。本文针对基础研究项目建设书的特点,研究了文本挖掘中的基本方法。本文的主要工作如下: 1.提出了符合中文科研项目文本特点的长度优先的无词典切分思路。与英文相比,文本切分是中文文本挖掘中的基本问题。科研项目文本中包含大量的语义不可分割的专业术语,并且不断涌现新...
【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:115 页
【学位级别】:博士
【部分图文】:
不同词频的平均切分准确率曲线
姜韶华:种研项目管理中的文本挖掘方法研究及应用逆向匹配结果不同词的频率分布配方向的不同对切分结果产生的差异,本文对规则筛选后正向、逆数量在不同频率的分布作了研究,采用正向、逆向不同词数量占不来描述分布情况,由于频率大于等于4时差异很少因此合并到4中为2、3和大于等于4时不同词的数量分别为371、30和2。结果,频率为2、3和大于等于4时的不同匹配方向产生的切分结果差、.74%和.05%。由此得出结论:由于匹配方向不同而产生的切分结率为2时,频率为3次之,而频率为4及以上则很少。
为考察经过规则筛选后双向匹配产生的不正确词随频率的分布规律,采用不同频率不正确词数量占不正确词总数的百分比来描述。频率为2、3和大于等于4时不正确词数量分别为1648、197和108。如图2.7所示。由图可见,不正确的词主要发生在词频为2时,占总数的84.4%,随着频率的增加,不正确的词数量逐渐减少,频率为大于等于4时,不正确词占总数的.55%。表明支持度闽值取值越高就会获得更准确的切分结果。
【参考文献】:
期刊论文
[1]基础研究学科发展的宏观知识挖掘[J]. 党延忠. 管理工程学报. 2006(02)
[2]科研项目管理的成功标准和风险分析[J]. 王悦,孙树栋. 中国科技论坛. 2005(04)
[3]基于多策略的专业领域术语抽取器的设计[J]. 杜波,田怀凤,王立,陆汝占. 计算机工程. 2005(14)
[4]一种基于生语料的领域词典生成方法[J]. 孙霞,郑庆华,王朝静,张素娟. 小型微型计算机系统. 2005(06)
[5]基于语料库的字母词语自动提取研究[J]. 郑泽之,张普,杨建国. 中文信息学报. 2005(02)
[6]汉语自动分词的研究现状与困难[J]. 张春霞,郝天永. 系统仿真学报. 2005(01)
[7]一种建立中文概念分类关系的新算法[J]. 裴炳镇,陈晓明,胡熠,陆汝占. 计算机工程与应用. 2004(36)
[8]面向Internet的中文新词语检测[J]. 邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇. 中文信息学报. 2004(06)
[9]图书馆知识管理的基本理念与策略[J]. 李海鹰. 图书与情报. 2004(04)
[10]中文信息检索引擎中的分词与检索技术[J]. 吴栋,滕育平. 计算机应用. 2004(07)
博士论文
[1]科学研究活动中的知识管理研究[D]. 李丹.武汉大学 2005
[2]文本挖掘在中医药中的若干应用研究[D]. 周雪忠.浙江大学 2004
[3]知识管理和文本挖掘的若干问题研究[D]. 徐建锁.天津大学 2004
[4]面向软件过程改进的知识管理技术研究[D]. 张晓刚.中国科学院研究生院(软件研究所) 2004
本文编号:3080569
【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:115 页
【学位级别】:博士
【部分图文】:
不同词频的平均切分准确率曲线
姜韶华:种研项目管理中的文本挖掘方法研究及应用逆向匹配结果不同词的频率分布配方向的不同对切分结果产生的差异,本文对规则筛选后正向、逆数量在不同频率的分布作了研究,采用正向、逆向不同词数量占不来描述分布情况,由于频率大于等于4时差异很少因此合并到4中为2、3和大于等于4时不同词的数量分别为371、30和2。结果,频率为2、3和大于等于4时的不同匹配方向产生的切分结果差、.74%和.05%。由此得出结论:由于匹配方向不同而产生的切分结率为2时,频率为3次之,而频率为4及以上则很少。
为考察经过规则筛选后双向匹配产生的不正确词随频率的分布规律,采用不同频率不正确词数量占不正确词总数的百分比来描述。频率为2、3和大于等于4时不正确词数量分别为1648、197和108。如图2.7所示。由图可见,不正确的词主要发生在词频为2时,占总数的84.4%,随着频率的增加,不正确的词数量逐渐减少,频率为大于等于4时,不正确词占总数的.55%。表明支持度闽值取值越高就会获得更准确的切分结果。
【参考文献】:
期刊论文
[1]基础研究学科发展的宏观知识挖掘[J]. 党延忠. 管理工程学报. 2006(02)
[2]科研项目管理的成功标准和风险分析[J]. 王悦,孙树栋. 中国科技论坛. 2005(04)
[3]基于多策略的专业领域术语抽取器的设计[J]. 杜波,田怀凤,王立,陆汝占. 计算机工程. 2005(14)
[4]一种基于生语料的领域词典生成方法[J]. 孙霞,郑庆华,王朝静,张素娟. 小型微型计算机系统. 2005(06)
[5]基于语料库的字母词语自动提取研究[J]. 郑泽之,张普,杨建国. 中文信息学报. 2005(02)
[6]汉语自动分词的研究现状与困难[J]. 张春霞,郝天永. 系统仿真学报. 2005(01)
[7]一种建立中文概念分类关系的新算法[J]. 裴炳镇,陈晓明,胡熠,陆汝占. 计算机工程与应用. 2004(36)
[8]面向Internet的中文新词语检测[J]. 邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇. 中文信息学报. 2004(06)
[9]图书馆知识管理的基本理念与策略[J]. 李海鹰. 图书与情报. 2004(04)
[10]中文信息检索引擎中的分词与检索技术[J]. 吴栋,滕育平. 计算机应用. 2004(07)
博士论文
[1]科学研究活动中的知识管理研究[D]. 李丹.武汉大学 2005
[2]文本挖掘在中医药中的若干应用研究[D]. 周雪忠.浙江大学 2004
[3]知识管理和文本挖掘的若干问题研究[D]. 徐建锁.天津大学 2004
[4]面向软件过程改进的知识管理技术研究[D]. 张晓刚.中国科学院研究生院(软件研究所) 2004
本文编号:3080569
本文链接:https://www.wllwen.com/guanlilunwen/keyanlw/3080569.html