MS-DOC文件文本提取研究
本文关键词:MS-DOC文件文本提取研究
更多相关文章: 复合文档 文本提取 关键词 搜索 计算机取证
【摘要】:关键词搜索广泛应用于情报分析、搜索引擎和计算机取证,对MS-DOC文件进行关键词搜索可能漏判,明明存在的关键词却找不到。微软复合文档结构由一系列流组成,流以扇区为单位存储,通过目录结构和扇区分配表对流及其存储空间进行管理。MS-DOC文件中的文本存储在WordDocument流中,文本存储不一定连续,通过Table流记录分块情况。关键词可能跨越不相邻扇区,即使在相邻扇区,一个关键词可能一部分是压缩存储,另一部分是非压缩存储,这些都是关键词搜索漏判的原因。根据Table流中的分块信息提取WordDocument流中的文本,并统一编码格式,进而进行关键词搜索,就可以避免漏判。
【作者单位】: 江苏警官学院计算机信息与网络安全系;淮安市公安局;
【关键词】: 复合文档 文本提取 关键词 搜索 计算机取证
【基金】:国家社会科学基金资助项目(13BTQ046) 公安技术,江苏省高等学校“十二五”重点学科建设专项资金资助
【分类号】:TP391.1
【正文快照】: 1引言对MS-DOC文件进行关键词搜索可能漏判,明明存在的关键词却找不到。原因是MS-DOC文件文本分块存储,且有快速保存的complex格式和非快速保存的non-complex格式。根据分块信息提取文本,并统一编码格式,就可以解决漏判。2复合文档结构MS-DOC文件采用复合文档结构[1]。复合文
【相似文献】
中国期刊全文数据库 前10条
1 付真真;陆伟;;基于关键词的搜索引擎优化策略及效果分析[J];现代图书情报技术;2009年06期
2 李洋;;图片搜索的收纳柜[J];互联网周刊;2007年16期
3 陈德华;刘良旭;乐嘉锦;;支持关键词搜索的空间连接查询研究[J];计算机科学;2009年07期
4 朱宏;刘嘉胤;;内容审计系统关键词表的改进[J];计算机安全;2011年04期
5 阿呆;;使用自然语言搜索 增加搜索筛选范围[J];电脑迷;2009年21期
6 ;挖掘声音图像信息——第三代搜索技术展望[J];每周电脑报;2005年21期
7 吕文波;;基于网络课程的自动答疑系统研究与设计[J];山东电大学报;2008年02期
8 ;如何提高搜索的效率 改善搜索关键词的一些小技巧[J];电脑迷;2011年07期
9 闫旭;;Google Trends:新SEO工具[J];互联网天地;2008年08期
10 天涯衰草;;资源找不到 超凡帮你精确定位[J];电脑迷;2011年16期
中国重要会议论文全文数据库 前5条
1 刘晓宇;翟晓飞;杨雨春;;计算机取证分析工具测试方法研究[A];全国计算机安全学术交流会论文集(第二十三卷)[C];2008年
2 田翠华;王潇;孔丽新;刘革;孙淑杰;关沫;;“随叫随到订餐导航”系统的设计与实现[A];科技创新与产业发展(A卷)——第七届沈阳科学学术年会暨浑南高新技术产业发展论坛文集[C];2010年
3 郑铁然;李海洋;韩纪庆;;汉语语音检索中基于音节和词语言模型的索引方法研究[A];第九届全国人机语音通讯学术会议论文集[C];2007年
4 陈沛;;搜索的未来[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 陈忆群;曹瑾音;印鉴;;查询扩展树:关系数据库中的文本检索[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国重要报纸全文数据库 前10条
1 苗得雨;语义搜索PK关键词搜索[N];电脑报;2008年
2 谌力;第三代搜索,Google的心病[N];网络世界;2006年
3 许丽萍;提升网络营销成功率 中小企业应避免五大误区[N];通信信息报;2008年
4 李文;自然语言搜索:Google、百度终结者?[N];中国民航报;2007年
5 马继前;网页浏览量5000多次[N];海南日报;2007年
6 胥小红 本报记者 雅梓;下一代搜索轮廓初现Autonomy力挺中文搜索[N];大众科技报;2006年
7 陈静;搜索引擎:智能技术带来新商机[N];经济日报;2007年
8 陆文军邋陈醇;网上公然卖病毒,谁来攻打“黑客帝国”[N];新华每日电讯;2007年
9 苗得雨;挺进图像搜索时代[N];电脑报;2008年
10 余建斌;搜索引擎“烽烟四起”[N];人民日报;2010年
中国硕士学位论文全文数据库 前9条
1 唐明珠;关系数据库中关键词搜索算法的研究[D];黑龙江大学;2013年
2 王楠;基于关系数据库的关键词搜索系统的研究[D];天津大学;2010年
3 胡朝义;索引构建与搜索算法的研究与实现[D];电子科技大学;2011年
4 冯立夫;面向审计过程的审计方法导引技术研究[D];哈尔滨工程大学;2013年
5 颜志博;基于用户反馈的关系数据库关键词搜索技术研究[D];黑龙江大学;2012年
6 徐兴智;科技平台撮合系统的设计与实现[D];吉林大学;2010年
7 王文娟;智能搜索引擎在集团企业的研究与应用[D];浙江理工大学;2012年
8 赵星;基于模板识别的中文政府文档关联数据提取算法[D];清华大学;2012年
9 彭晴晴;面向查询意图的标签推荐技术研究[D];哈尔滨工程大学;2013年
,本文编号:603312
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/603312.html