融合结构和内容特征提取多类型网页文本要素
本文关键词:融合结构和内容特征提取多类型网页文本要素
更多相关文章: 多类型网页 网页要素自动提取 结构特征 内容特征
【摘要】:针对网页设计结构与文本内容上的关联特点,提出了融合结构和内容特征的多类型网页文本要素提取方法。依据网页头部标题元素与网页体内容上的联系提取网页标题;提取网页正文区域的网页结构和内容上的多个特征分类网页DOM节点,定义节点的扩展、整合规则获得正文候选块,引入密度值和影响因子从各候选块中甄别正文块;利用发布时间与标题、正文之间的位置关系,通过正则表达式实现发布时间的提取。对国内新闻网站、博客、论坛及贴吧进行抽取试验,结果表明该方法具有较好的效果。
【作者单位】: 昆明理工大学信息工程与自动化学院;昆明理工大学智能信息处理重点实验室;
【基金】:国家自然科学基金(61175068;61472168) 云南省自然科学基金重点项目(2013FA030)
【分类号】:TP393.092;TP391.1
【正文快照】:
【相似文献】
中国期刊全文数据库 前10条
1 李建华,王志国,马晓云,韩建国;网页发布常用方法及遇到问题[J];电脑开发与应用;2001年11期
2 王峥;穿梭网络看设计——小议网页设计[J];苏州丝绸工学院学报;1999年06期
3 李亚文;网页设计系列讲座(一) 信息世界的新时尚——用网页展示自己[J];多媒体世界;1999年02期
4 张田力;网页设计系列讲座(四) 在世界面前展示你的风采——网页发布[J];多媒体世界;1999年05期
5 高渭文;马敏峰;;科技期刊网页的规划设计与制作维护[J];学报编辑论丛;2000年00期
6 康军;出版社网页的设计与开发[J];科技与出版;2000年05期
7 郭再新,常征旗;查询网页与网页发布[J];南京广播电视大学学报;2000年04期
8 付斌 ,韩松;网页沙龙之发布我的网页[J];网络与信息;2001年10期
9 顾绮芳;韩斌;;《网页设计》教学探索[J];职业圈;2007年14期
10 彭菊萍;李俊青;;基于网络教学环境下的网页设计课程教学的探索与实践[J];科技信息(科学教研);2007年28期
中国重要会议论文全文数据库 前2条
1 高渭文;马敏峰;;科技期刊网页的规划设计与制作维护[A];学报编辑论丛(第九集)[C];2000年
2 孙周军;肖文名;;基于组合策略网页防篡改系统实现方法研究[A];2011年中国气象学会气象通信与信息技术委员会暨国家气象信息中心科技年会论文摘要[C];2011年
中国重要报纸全文数据库 前7条
1 本报记者 王兵 通讯员 韦炜;小网页 大名片 长链条[N];中国气象报;2012年
2 林欣欣;Micromedia家族新宠 contribute[N];中国电脑教育报;2003年
3 爱上一条鱼;傻瓜网站管理工具[N];电脑报;2004年
4 湖南省株洲县教育局教育技术装备站 许赛苏;做个合格的信息管理员[N];中国电脑教育报;2004年
5 ;书山有路勤为径[N];中国电脑教育报;2004年
6 王兆和;到秘密花园里“摘”烟花[N];中国电脑教育报;2004年
7 通讯员 郝金荣 记者 曾居仁;万村千乡网页工程建成入选贵州“三农”十大新闻[N];中国气象报;2013年
中国博士学位论文全文数据库 前1条
1 林盛;时间感知的Web搜索研究[D];中国科学技术大学;2015年
中国硕士学位论文全文数据库 前10条
1 梁静;网页防篡改中分布式文件同步系统的研究[D];西安工业大学;2013年
2 冯胜;基于正文结构和长句提取的网页去重研究[D];重庆大学;2010年
3 王海潮;基于网页结构的信息抽取关键技术研究[D];华南理工大学;2011年
4 谭庆华;赣县中学博客网页建设初探[D];江西师范大学;2005年
5 王ZMr,
本文编号:1198687
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1198687.html