当前位置:主页 > 科技论文 > 搜索引擎论文 >

中文农业搜索引擎字符编码识别

发布时间:2017-11-05 16:02

  本文关键词:中文农业搜索引擎字符编码识别


  更多相关文章: 编码识别 卡方检验 多元线性回归 GB Big


【摘要】:针对农业网页中汉字编码标识混乱的情况,提出了一种综合运用编码规则和网页文本特征的字符编码识别模型。利用卡方检验算法,结合最小二乘多元线性回归方法,得到了基于网页文本特征的字符识别模型。实验结果显示,在适当的选取阈值(r=1,阈值=属于某一编码的字符数/网页总字符数)和文本特征数(≥65)的基础上,模型准确率达到100%,且结果稳定。
【作者单位】: 新疆农业大学计算机与信息工程学院;
【基金】:新疆维吾尔自治区科技攻关项目(200931103)
【分类号】:TP393.092;TP391.3
【正文快照】: 随着农业信息化建设的不断推进,农业网站数量增长迅速[1]。随着网页数量的增长,人们查找真正需要信息的难度也相应增加了。这就催生了人们对信息查找工具——搜素引擎的需求。通过搜索引擎人们可以更加有效率的获得信息、产品和服务。由于中文网页使用的汉字编码种类众多,如果

【参考文献】

中国期刊全文数据库 前4条

1 单松巍,冯是聪,李晓明;几种典型特征选取方法在中文网页分类上的效果比较[J];计算机工程与应用;2003年22期

2 熊忠阳;张鹏招;张玉芳;;基于χ~2统计的文本分类特征选择方法的研究[J];计算机应用;2008年02期

3 李培峰,朱巧明,钱培德;多文种环境下汉字内码识别算法的研究[J];中文信息学报;2004年02期

4 谢谦;芮建武;吴健;;编码字符集标准及分类研究[J];中文信息学报;2006年05期

【共引文献】

中国期刊全文数据库 前10条

1 高博;朱东华;韩士雄;;一种智能化的信息采集系统的研究与实现[J];兵工学报;2009年S1期

2 李玉擰;周兰珍;操卫平;;基于DF和CHI的联合特征提取方法及其应用[J];北京工业大学学报;2008年09期

3 付雪峰;刘邱云;;不确定性推理在文本分类上的应用研究[J];江西师范大学学报(自然科学版);2007年04期

4 江祥奎,原思聪;中文网页分类中的网页特征提取方法[J];电脑开发与应用;2005年10期

5 张东娜;刘博;;一个基于加权和组合降维的web文本分类系统[J];电脑知识与技术;2008年07期

6 朱坤红;邓蓉;;基于知识树的文本自动分类方法探索[J];电脑知识与技术;2010年22期

7 盛魁;赵鹏;;中文网页自动分类综述[J];电脑知识与技术;2010年27期

8 张瑜;张德贤;;基于类别比例因子和类内均分度的χ~2统计改进[J];电子科技;2010年12期

9 刘巧英;杨天朋;孙玉强;;基于网站结构和内容的Web Server加速技术研究[J];福建电脑;2009年07期

10 刘志明;刘鲁;;面向突发事件的群体情绪监控预警[J];系统工程;2010年07期

中国重要会议论文全文数据库 前3条

1 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年

2 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

3 崔磊;陈清才;郭鸿志;王晓龙;;HowNet与维基百科知识融合中的义类属性自动构建方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

中国博士学位论文全文数据库 前9条

1 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年

2 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年

3 李培峰;基于语义的多文种信息处理平台SMIPP的研究[D];苏州大学;2006年

4 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年

5 刘林泉;水声综合测控系统关键技术研究[D];哈尔滨工程大学;2008年

6 黄永文;中文产品评论挖掘关键技术研究[D];重庆大学;2009年

7 王鉴全;基于概念图挖掘的中文文本倾向性研究[D];大连理工大学;2012年

8 刘楠;面向微博短文本的情感分析研究[D];武汉大学;2013年

9 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年

【二级参考文献】

中国期刊全文数据库 前5条

1 程泽凯,陆小艺;文本分类中的特征选择方法[J];安徽工业大学学报(自然科学版);2004年03期

2 徐凤亚,罗振声;文本自动分类中特征权重算法的改进研究[J];计算机工程与应用;2005年01期

3 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期

4 陈治纲,何丕廉,孙越恒,郑小慎;基于向量空间模型的文本分类系统的研究与实现[J];中文信息学报;2005年01期

5 李凡,鲁明羽,陆玉昌;关于文本特征抽取新方法的研究[J];清华大学学报(自然科学版);2001年07期

【相似文献】

中国期刊全文数据库 前10条

1 何香玲,张跃,郑钢;串行通信中的字节与字符[J];工业控制计算机;2002年03期

2 小金;字符引发的信息安全问题 来自字符的威胁[J];新电脑;2004年09期

3 李喜宇;;编程中字符编码的兼容问题[J];山西财经大学学报(高等教育版);2008年S1期

4 黄明志;闫大顺;;页面字符编码的分析及其应用[J];仲恺农业工程学院学报;2009年03期

5 洪汉妮;;字符编码即将统一[J];电子测试;2000年05期

6 刘志基;简说“古文字三级字符全拼编码检字系统”[J];辞书研究;2002年01期

7 魏再超;;计算机字符编码问题[J];福建电脑;2012年07期

8 陆明真;宋国文;蒋林涛;;Telematic业务的发展趋向及规程变化(续)[J];电信科学;1993年05期

9 李莹;字符的显示途径及直接写屏技术[J];电脑技术;1998年03期

10 金永涛;显示屏幕上任意字符编码[J];电脑;1994年08期

中国重要会议论文全文数据库 前5条

1 马丽;马宁;王燕凤;;民文版软件的国际化与本地化[A];第三届全国软件测试会议与移动计算、栅格、智能化高级论坛论文集[C];2009年

2 庄仁峰;王健平;原轶;;短信端口字符化技术的应用研究[A];2007年中国通信学会“移动增值业务与应用”学术年会论文集[C];2007年

3 当周才让(赵维纳);德熙嘉措·赵晨星;;藏文吾美长腿体字库的设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

4 范显镔;;汉语编码文字的定义、特点和用途[A];中国中文信息学会汉字编码专业委员会第九届年会暨学术研讨会论文集[C];2011年

5 契嘎·德熙嘉措;当周才让;;基于信息处理的藏文字的结构[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

中国重要报纸全文数据库 前3条

1 记者 尚明洲邋通讯员 朱慧瑜;广东移动“短信端口字符化技术”获专利[N];人民邮电;2008年

2 ;施乐PARC四十年大事记[N];网络世界;2010年

3 中国科学院软件研究所 副所长 中科红旗软件技术有限公司 董事长 孙玉芳;信息社会的灵魂[N];科技日报;2001年

中国博士学位论文全文数据库 前1条

1 芮建武;操作系统国际化基础的研究与实践[D];中国科学院研究生院(软件研究所);2005年

中国硕士学位论文全文数据库 前10条

1 王甜甜;基于关键字符的Word文档脆弱水印算法[D];西南交通大学;2013年

2 周珩珩;藏语言文字信息化处理与未收录字符的动态实现[D];中国人民解放军信息工程大学;2002年

3 徐彩虹;字符二维条码的编解码技术研究[D];浙江工业大学;2012年

4 杨俊燕;中文互联网数据压缩的单字符编码优化方法研究和实现[D];电子科技大学;2012年

5 陈炳煌;具有字符叠加和测距功能的车载视频检测装置的研发[D];中南大学;2008年

6 刘小兵;视频字符叠加与短距离红外无线传输技术研究[D];南京理工大学;2004年

7 新吉勒吐;嵌入式蒙文信息处理系统中名义字符到显现字形算法的研究与实现[D];内蒙古大学;2010年

8 余继东;软件产品的全球化测试研究[D];北京邮电大学;2009年

9 王守华;基于GB18030编码标准的中文Linux系统[D];中国科学院软件研究所;2001年

10 舒若;机载电子综合显示系统图形反走样技术的研究[D];南京航空航天大学;2003年



本文编号:1144855

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1144855.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9470f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com