当前位置:主页 > 管理论文 > 移动网络论文 >

专家主页的信息块划分及特征提取研究

发布时间:2020-06-25 06:06
【摘要】:挖掘专家主页中的信息具有重要的研究意义,因此如何描述专家主页的特征去识别实体内容成为挖掘过程中最为关键的一步。文章对专家主页中的主要信息块进行划分,介绍了识别信息块的主要方法。利用Dreamweaver软件对2 000个专家主页进行标注,然后利用文本特征、视觉特征以及结构特征来提取专家主页中专家基本信息、研究兴趣、研究项目和出版物信息的特征,进行特征构建。
【图文】:

信息块,专家,归纳总结,研究项目


情报理论与实践(ITAkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk)图1两种基本信息块形式3专家主页信息块特征识别3.1特征描述及选择的难点由于特征描述在整个机器学习过程中起着至关重要的作用,因此如何将信息块特征充分详尽地描述出来也成为机器学习领域研究的热点和难点。其难点主要包括以下3点。3.1.1特征复杂多变,归纳总结存在困难对信息块实体特征的归纳总结是整个特征描述过程中的最大难点。由于专家主页结构复杂、规律性较差,不同的专家拥有不同的喜好,因此整个专家主页的布局设计也存在着很大区别。在信息块实体上,有些专家可能喜欢将研究兴趣和研究项目放在一起来描述,使两块内容整体属于“Re-search”块下;而有些专家则喜欢将研究兴趣、研究项目和出版物信息分开列出,使整个专家主页看起来更规范;还有些专家则喜欢将研究项目与出版物信息放在一起描述,将在每个项目中所发表的文章一一列出,从时间上对出版物和研究项目进行划分。3.1.2将文字特征描述转化为机器可识别的语言存在困难将特征归纳总结之后,如何将文字描述转化为机器可识别的语言成为另一难题。由于不同特征含有不同的结构特征、文本特征和视觉特征,描述时需要将这些特征进行组合描述。而不同的人对特征的描述不尽相同,这就给程序员带来了巨大困难:一方面要理解前面归纳总结出来的特征;另一方面又要让机器也理解这些特征。因此,有时为了减少程序员的工作量,会将特征进行简化,但这也降低了信息块识别的准确率。3.1.3特征筛选存在困难将特征转换为机器语言后,接下来就是将特征送到分类器中进行训练,使分类器得以“记妆这些特征,即分类器的训练过程。但是如果想

【参考文献】

相关期刊论文 前2条

1 黄文蓓;杨静;顾君忠;;基于分块的网页正文信息提取算法研究[J];计算机应用;2007年S1期

2 周佳颖;朱珍民;高晓芳;;基于统计与正文特征的中文网页正文抽取研究[J];中文信息学报;2009年05期

【共引文献】

相关期刊论文 前10条

1 王楠;;一种实现Web数据到XML文档的转换算法[J];大连海事大学学报;2010年03期

2 柳永念;钟诚;焦小焦;;基于单元识别的网页信息抽取方法[J];广西大学学报(自然科学版);2011年05期

3 张春元;;基于CRFs的新闻网页主题内容自动抽取方法[J];广西师范大学学报(自然科学版);2011年01期

4 刘丰;韩辉;周蕾;齐峻瑶;徐宝梁;;网络信息技术在传染病舆情监测中的应用[J];中国国境卫生检疫杂志;2012年04期

5 张霞亮;陈家骏;;基于逻辑行和最大接纳距离的网页正文抽取[J];计算机工程与应用;2009年25期

6 缪霖;邱会中;;Web页面自顶向下的正文信息定位算法[J];计算机工程;2010年13期

7 黄玲;陈龙;;基于网页分块的正文信息提取方法[J];计算机应用;2008年S2期

8 范纯龙;夏佳;肖昕;吕红伟;徐蕾;;基于功能语义单元的博客评论抽取技术[J];计算机应用;2011年09期

9 王舒;朱敏;张明;牛颢;赵瑜;;一种基于特征符号的网页主题信息抽取方法[J];计算机应用研究;2009年12期

10 刘鹏博;车海燕;陈伟;;知识抽取技术综述[J];计算机应用研究;2010年09期

相关会议论文 前1条

1 梁勇;张文;;网络舆情采集系统的设计[A];2011年全国通信安全学术会议论文集[C];2011年

相关博士学位论文 前1条

1 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年

相关硕士学位论文 前10条

1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年

2 王伟;搜索引擎智能化技术中若干关键问题的研究与实现[D];河北科技大学;2011年

3 李亚洲;文本分类语料库自动构建系统的研究与改进[D];武汉理工大学;2011年

4 侯明燕;基于网页信息定位的数据抽取技术的研究[D];暨南大学;2011年

5 郭力;Web正文信息抽取与面向层次结构的分类技术研究[D];华南理工大学;2011年

6 秦树伟;面向移动页面自适应平台的Web结构特征聚类算法[D];中国海洋大学;2011年

7 吕婷婷;统计和规则相结合的新闻网页分类系统的设计与实现[D];电子科技大学;2011年

8 王燕;网站敏感信息监视系统设计与实现[D];解放军信息工程大学;2008年

9 卫莉莉;面向领域的Web文本采集与分类[D];西安建筑科技大学;2011年

10 卢振;面向教育新闻的主题爬虫设计与实现[D];华中科技大学;2011年

【二级参考文献】

相关期刊论文 前4条

1 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期

2 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期

3 梅雪;程学旗;郭岩;张刚;丁国栋;;一种全自动生成网页信息抽取Wrapper的方法[J];中文信息学报;2008年01期

4 杨少华;林海略;韩燕波;;针对模板生成网页的一种数据自动抽取方法(英文)[J];软件学报;2008年02期

【相似文献】

相关期刊论文 前10条

1 查志琴;;基于行模式的网页信息提取算法[J];常州工学院学报;2007年04期

2 孙桂煌;刘发升;;基于正文特征的网页正文信息提取方法[J];现代计算机(专业版);2008年09期

3 许有田;赵景民;郭兴旺;;西安市SPOT2.5m卫星影像数据处理的实践与探讨[J];测绘科学;2008年S1期

4 徐恩元;徐建华;;文献老化理论研究[J];四川图书馆学报;2006年06期

5 朱岱力;罗永新;徐华;任成高;;以Pro/E特征为平台的CAPP系统开发研究[J];现代制造工程;2009年06期

6 高月,梁本亮;浅谈网络信息挖掘[J];通信电源技术;2004年01期

7 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期

8 宫鹏;黎夏;徐冰;;高分辨率影像解译理论与应用方法中的一些研究问题[J];遥感学报;2006年01期

9 邱清盈;郑国民;冯培恩;武建伟;;基于正则表达式的专利信息提取方法研究[J];中国机械工程;2007年19期

10 万乐;左万利;高金;;基于主题的网页噪音去除机制[J];计算机工程与设计;2008年08期

相关会议论文 前10条

1 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年

2 李伟兰;庞小平;严易华;;城市影像地图制图综合初探[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年

3 袁克虹;陈自强;刘维湘;贾少微;肖平;;计算机辅助脑部MRI影像诊断系统的研制[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(上册)[C];2007年

4 邢莉新;许惠平;;卫星遥感数据信息提取新方法研究[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年

5 彭天强;邵美珍;;基于神经网络的K-L变换方法研究[A];中国图象图形学会第十届全国图像图形学术会议(CIG’2001)和第一届全国虚拟现实技术研讨会(CVR’2001)论文集[C];2001年

6 蔡建峰;;基于管理层次的信息供给策略[A];2002年中国管理科学学术会议论文集[C];2002年

7 刘振民;李四海;韩震;;HY-1卫星资料悬浮泥沙浓度信息提取应用系统的研制[A];第十五届全国遥感技术学术交流会论文摘要集[C];2005年

8 王小军;李永森;;海南基础地理信息数据集建设概要[A];全国测绘科技信息网中南分网第二十一次学术信息交流会论文集[C];2007年

9 陈永慧;李小娟;胡德勇;;京津冀都市圈城市扩展遥感信息提取及动态变化分析[A];地理学与生态文明建设——中国地理学会2008年学术年会论文摘要集[C];2008年

10 杨俊;廖闻剑;彭艳兵;;一类冲突证据的融合方法[A];第十届中国科协年会信息化与社会发展学术讨论会分会场论文集[C];2008年

相关重要报纸文章 前10条

1 旷;《基于项目的软件工程:面向对象研究方法》[N];中国图书商报;2002年

2 山东大学管理学院 安玉红邋温德成;请来顾客谈需求[N];中国质量报;2007年

3 王黎芳;口述一部家庭史[N];中国妇女报;2001年

4 本报记者 马文方;不拘一格降人才[N];中国计算机报;2001年

5 朱军辉;关注战术研究方法的创新[N];中国国防报;2009年

6 沈占锋;遥感影像信息提取与分析[N];计算机世界;2006年

7 许道敏;警惕权力崇拜及其六种表现形式[N];检察日报;2005年

8 王强;也谈“心”的概念及其研究方法[N];中国中医药报;2001年

9 李培林;村落进入和研究方法[N];中国社会科学院院报;2004年

10 巩鹏 王忠裕;科学的研究方法最重要[N];健康报;2003年

相关博士学位论文 前10条

1 武子玉;矿物近红外光谱信息提取及应用研究[D];吉林大学;2005年

2 张旗;基于属性的图像分类研究[D];大连海事大学;2005年

3 张立福;通用光谱模式分解算法及植被指数的建立[D];武汉大学;2005年

4 苏彩红;墙地砖质量自动检测技术的研究[D];华南理工大学;2004年

5 宋余庆;医学图像数据挖掘若干技术研究[D];东南大学;2005年

6 宋晴;基于液滴分析技术和液滴指纹图的液体识别方法的研究[D];天津大学;2005年

7 吴婷;自发脑电脑机接口模式识别关键技术与实验研究[D];上海交通大学;2008年

8 孙真真;基于光学区雷达目标二维像的目标散射特征提取的理论及方法研究[D];中国人民解放军国防科学技术大学;2001年

9 吕苗荣;信息提取与矿山信息系统的研究开发[D];中南大学;2003年

10 王承;基于神经网络的模拟电路故障诊断方法研究[D];电子科技大学;2005年

相关硕士学位论文 前10条

1 苟全登;基于XML的半结构化Web信息提取的研究[D];电子科技大学;2006年

2 田纪亚;基于Matlab在指纹识别系统中的应用研究[D];吉林大学;2008年

3 田伟;侧面人脸图像识别系统的研究[D];哈尔滨工程大学;2005年

4 谢锋;基于小波包与数学形态学的道路信息提取研究[D];长沙理工大学;2005年

5 万金鹏;史华慈毛泽东研究评析[D];陕西师范大学;2007年

6 吕鹭;中国英语与中式英语的研究内容及方法对比研究[D];华中科技大学;2007年

7 乌吉木;蒙古语青海和硕特土语的特殊词语研究[D];内蒙古师范大学;2008年

8 曾红梅;情绪图片视觉诱发EEG特征提取与分析[D];天津大学;2012年

9 许勇;基于百科词典的知识获取系统的研究与实现[D];北京工业大学;2001年

10 张磊;基于Internet的智能信息挖掘系统建模及关键技术研究[D];西北工业大学;2003年



本文编号:2728968

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2728968.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8f946***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com