结合语义知识的藏文网页主题句抽取算法研究
发布时间:2020-03-19 03:00
【摘要】:通过分析总结藏文网页的结构特征,在借鉴汉语主题句抽取方法的基础上,提出了结合语义信息的藏文网页主题句抽取算法。该方法根据藏文文本特征实现了网页内容的智能识别,同时,在对识别的文本块进行自动分词后,利用改进TF-IDF方法结合主题词的语义相关性确定了网页文本的主题词,并据此构建了候选主题句集,再通过候选主题句的重要度和分布度计算得到了候选主题句的权值。最后对所有候选主题句按权值大小排序并确定了文本的主题句。
本文编号:2589601
【相似文献】
相关期刊论文 前6条
1 张云涛;龚玲;王永成;;基于综合方法的文本主题句的自动抽取[J];上海交通大学学报;2006年05期
2 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期
3 葛斌;李芳芳;李阜;肖卫东;;基于无向图构建策略的主题句抽取[J];计算机科学;2011年05期
4 王力;李培峰;朱巧明;;一种基于LDA模型的主题句抽取方法[J];计算机工程与应用;2013年02期
5 薛扣英;原盛;张心严;;基于WFC和MI的主题句提取方法[J];计算机工程;2009年20期
6 何维;王宇;;基于句子关系图的网页文本主题句抽取[J];现代图书情报技术;2009年03期
相关硕士学位论文 前2条
1 潘云仙;基于JST模型的新闻文本情感分类研究[D];河北大学;2015年
2 刘子平;基于主题句语义融合的多文档摘要算法研究[D];重庆大学;2016年
,本文编号:2589601
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2589601.html