PDF格式网络中文学术文献的识别与检索——基于学术文献文体特征的研究
发布时间:2018-04-30 07:10
本文选题:网络学术文献 + 文体特征 ; 参考:《图书情报工作》2011年09期
【摘要】:学术文献具有鲜明的文体特征,且部分特征能够用于PDF格式网络中文学术文献的自动识别与检索。提取学术文献在特有表述、句子平均长度、中西文比例等方面存在的特征,用来识别PDF格式的中文学术文献,对Google通用搜索引擎的搜索结果进行重新排序。结果显示文体特征的运用能够在一定程度上提高网络PDF学术文献的检准率。
[Abstract]:The academic literature has distinct stylistic features, and some features can be used in the automatic identification and retrieval of Chinese academic documents in PDF format network. The characteristics of extracting academic literature in the specific expressions, the average length of the sentence and the proportion of Chinese and Western languages are used to identify the literature of the Chinese Literature in the PDF format and the search for the Google general search engine. The results show that the use of stylistic features can improve the accuracy rate of online PDF academic literature to a certain extent.
【作者单位】: 中山大学资讯管理系;深圳图书馆;
【基金】:国家社会科学基金项目“网络中文学术文献的自动识别与检索研究——基于学术文献文体、链接及图文相关度的研究与系统开发”(项目编号:10BTQ049)研究成果之一
【分类号】:G252.7
【相似文献】
相关期刊论文 前10条
1 邹永利;何侃;徐健;;文体特征在网络学术文献检索中的意义与应用[J];情报理论与实践;2008年04期
2 胜成居士;;文体特征助校雠——玄奘法师《谢高昌王启》校勘记[J];文史杂志;2009年02期
3 莫山洪;;从《钦定四库全书总日》看清代中叶的骈文文体观念[J];东方丛刊;2007年02期
4 张少成;;析文酌义校标点——《东京梦华录笺注》校勘选录[J];文史杂志;2008年03期
5 钟书林;;敦煌写本《茶酒论》文体考论[J];图书馆理论与实践;2011年07期
6 马世年;;关于《韩非子》篇目真伪考辨的几点思考[J];图书与情报;2007年06期
7 邹永利;;学术文献的非主题特征及其意义[J];中国图书馆学报;2011年03期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
,本文编号:1823583
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1823583.html